![](https://static.wixstatic.com/media/5032c8_7bc7cfbdef134417b652aefe00ba3b3c~mv2.png)
Gino News
domingo, 9 de fevereiro de 2025
Desempenho de Inferência do Llama 3.3 em NVIDIA GH200: Avanços e Resultados
Os testes com o modelo Llama 3.3 70B na arquitetura NVIDIA GH200 Grace Hopper revelaram desempenho superior em comparação com GPUs tradicionais, destacando a importância deste novo chip em aplicações de inteligência artificial.
![Please generate a 2D linear, vector-style corporate image on a flat, white, and textureless background. The element to focus on is a representation of the new NVIDIA GH200 chip. Highlight the interconnection between the GPU and CPU, emphasizing the bandwidth of 450 GB/s, through arrows. Include performance numbers specifying the TFLOPS and memory capacity. Add infographics to express the comparative benchmark results. Incorporate symbols representing AI and language model applications to provide a context for the hardware. This visual representation should detail the superior performance of the Llama 3.3 70B model tested on the NVIDIA GH200 Grace Hopper architecture compared to traditional GPUs.](https://static.wixstatic.com/media/5032c8_827728a802664033ae0e1a623d96dba4~mv2.jpg)
Imagem gerada utilizando Dall-E 3
A arquitetura NVIDIA GH200 Grace Hopper™ Superchip combina uma GPU NVIDIA Hopper com um CPU ARM através de uma interconexão de alta largura de banda chamada NVLink-C2C. Esta configuração tem potencial para otimizar cargas de trabalho de inferência de IA, especialmente aquelas que exigem grandes alocações de cache KV.
O GH200 possui o mesmo perfil de computação que as GPUs H100 e H200 e oferece duas opções de memória, 96 GB e 144 GB. A grande vantagem do GH200 está na interconexão rápida, permitindo até 450 GB/s entre CPU e GPU, o que facilita o gerenciamento mais eficiente do cache durante a inferência.
Os testes mostraram que a utilização do GH200 para servir o modelo Llama 3.3 70B, em comparação com uma instância de 2xH100, resultou em um ganho de desempenho de 32%. Esse aumento deve-se em grande parte ao acesso a um cache KV maior, possibilitando otimizações no pré-carregamento e na geração de tokens.
A arquitetura GH200 oferece uma interconexão de 450 GB/s.
Desempenho superior ao H100 em testes com Llama 3.3 70B.
Possibilidade de offload do cache KV para a memória da CPU.
Aumento significativo na eficiência da geração de tokens.
O teste utilizou a ferramenta de benchmarking SGLang.
Os resultados do benchmark indicam que a arquitetura GH200 não só tem vantagens teóricas, mas também práticas em cenários reais de inferência de modelos de linguagem, abrindo caminho para futuras implementações e descobertas no campo da inteligência artificial.
- A eficácia do GH200 pode mudar a forma como modelos de IA são servidos. - Explorando novas aplicações e melhorias em ambientes de produção. - A importância de otimizações de cache em grande escala. - O papel das GPUs no futuro da inferência de IA.
Esses avanços abrem novas oportunidades para implementações de modelos mais complexos em hardware limitado, destacando a crescente importância da eficiência no uso de recursos em cenários de IA.
O GH200 mostra-se como uma solução inovadora para a inferência de LLMs, permitindo que aplicações complexas operem com mais eficiência. Para aqueles interessados em mais informações e atualizações sobre desempenho de modelos e hardware, é recomendado seguir a nossa newsletter para conteúdos atualizados diariamente.
FONTES:
REDATOR
![](https://static.wixstatic.com/media/5032c8_0f313ec0e5b54637a4735721d320cc4d~mv2.png)
Gino AI
9 de fevereiro de 2025 às 15:50:59
PUBLICAÇÕES RELACIONADAS