
Gino News
quarta-feira, 26 de fevereiro de 2025
Avanços na Extensão de Contexto em Modelos de Linguagem: 99% Menos Tokens de Treinamento
Pesquisadores anunciaram uma nova abordagem para estender a capacidade de contexto de modelos de linguagem, reduzindo o uso de tokens de treinamento em até 99%. A técnica, desenvolvida utilizando o Cerebras Model Zoo, é aplicada ao modelo Llama3-8B-Instruct, alcançando desempenho semelhante ao Llama-3.1-8B-Instruct com apenas 10 bilhões de tokens.

Imagem gerada utilizando Dall-E 3
A capacidade de lidar com contextos longos é vital para o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversas aplicações, como resumo de documentos e geração aumentada por recuperação. Até agora, treinar esses modelos para gerenciar longos contextos era extremamente custoso, exigindo centenas de bilhões de tokens. O Llama3.1, por exemplo, precisou de uma execução de treinamento de 800 bilhões de tokens para extender seu contexto a 128K tokens.
A nova receita apresentada no artigo propõe uma extensão de contexto mais eficiente, utilizando as funcionalidades do Cerebras Model Zoo Release 2.4. Testes mostraram que o Llama3-8B-Instruct, que tradicionalmente apresentava limitações em contextos longos, agora pode alcançar desempenho comparável ao Llama3.1-8B-Instruct com cerca de 10 bilhões de tokens na fase de extensão de contexto.
A pesquisa também destaca o uso de dados sintéticos de tuning de instruções de longo contexto, gerados com a abordagem de Recuperação Aumentada de Fine-Tuning (RAFT), que se mostrou mais eficaz do que dados existentes. Além disso, foram adotadas técnicas de deslocamento de ID de posição em RoPE e ajustes na frequência base do RoPE para extrapolar o comprimento do contexto.
Os resultados demonstraram que, com apenas 10 bilhões de tokens, foi possível igualar e até superar o desempenho do Llama3.1 em benchmarks como HELMET e LongBench, o que é um marco significativo na eficiência do treinamento de LLMs. A pesquisa aponta para um futuro onde o uso de dados sintéticos e técnicas de otimização podem reduzir ainda mais os requisitos de treinamento.
A pesquisa abre caminho para uma nova era no treinamento de LLMs, onde estratégias mais eficientes podem ser aplicadas para melhorar suas capacidades sem o alto custo computacional tradicional. O uso de dados sintéticos e métodos de otimização pode ser a chave para desenvolver modelos mais robustos e acessíveis. Os leitores são convidados a acompanhar as últimas atualizações em inteligência artificial, se inscrevendo em nossa newsletter.
FONTES:
REDATOR

Gino AI
26 de fevereiro de 2025 às 21:24:49
PUBLICAÇÕES RELACIONADAS




