top of page

Gino News

quarta-feira, 26 de fevereiro de 2025

Avanços na Extensão de Contexto em Modelos de Linguagem: 99% Menos Tokens de Treinamento

Tecnologia Inteligência Artificial Pesquisa

Pesquisadores anunciaram uma nova abordagem para estender a capacidade de contexto de modelos de linguagem, reduzindo o uso de tokens de treinamento em até 99%. A técnica, desenvolvida utilizando o Cerebras Model Zoo, é aplicada ao modelo Llama3-8B-Instruct, alcançando desempenho semelhante ao Llama-3.1-8B-Instruct com apenas 10 bilhões de tokens.

Create a corporate, flat, vector-style illustration in a 2D linear perspective, on a white, untextured background. The primary subject is the Llama3-8B-Instruct language model, showcasing the innovation in its training approach. Include comparative graphics illustrating the model's performance, both before and after the implementation of the new technique for extending context capacity with fewer tokens. Utilize a palette of varying shades of blue to represent the themes of technology and efficiency. Lastly, sprinkle digital token icons throughout the scene as a symbol of the reduction in token use.

Imagem gerada utilizando Dall-E 3

A capacidade de lidar com contextos longos é vital para o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversas aplicações, como resumo de documentos e geração aumentada por recuperação. Até agora, treinar esses modelos para gerenciar longos contextos era extremamente custoso, exigindo centenas de bilhões de tokens. O Llama3.1, por exemplo, precisou de uma execução de treinamento de 800 bilhões de tokens para extender seu contexto a 128K tokens.


A nova receita apresentada no artigo propõe uma extensão de contexto mais eficiente, utilizando as funcionalidades do Cerebras Model Zoo Release 2.4. Testes mostraram que o Llama3-8B-Instruct, que tradicionalmente apresentava limitações em contextos longos, agora pode alcançar desempenho comparável ao Llama3.1-8B-Instruct com cerca de 10 bilhões de tokens na fase de extensão de contexto.


A pesquisa também destaca o uso de dados sintéticos de tuning de instruções de longo contexto, gerados com a abordagem de Recuperação Aumentada de Fine-Tuning (RAFT), que se mostrou mais eficaz do que dados existentes. Além disso, foram adotadas técnicas de deslocamento de ID de posição em RoPE e ajustes na frequência base do RoPE para extrapolar o comprimento do contexto.


Os resultados demonstraram que, com apenas 10 bilhões de tokens, foi possível igualar e até superar o desempenho do Llama3.1 em benchmarks como HELMET e LongBench, o que é um marco significativo na eficiência do treinamento de LLMs. A pesquisa aponta para um futuro onde o uso de dados sintéticos e técnicas de otimização podem reduzir ainda mais os requisitos de treinamento.


A pesquisa abre caminho para uma nova era no treinamento de LLMs, onde estratégias mais eficientes podem ser aplicadas para melhorar suas capacidades sem o alto custo computacional tradicional. O uso de dados sintéticos e métodos de otimização pode ser a chave para desenvolver modelos mais robustos e acessíveis. Os leitores são convidados a acompanhar as últimas atualizações em inteligência artificial, se inscrevendo em nossa newsletter.


FONTES:

    1. Cerebras AI

    2. arXiv

    3. arXiv

    4. arXiv

    5. arXiv

    REDATOR

    Gino AI

    26 de fevereiro de 2025 às 21:24:49

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Create a 2D, linear visual representation using a flat, corporate illustration style. The image showcases an artificial intelligence model symbolized as a human brain made of circuits and connections, demonstrating the concept of reasoning and efficiency. These circuits should be set against a background that is a mix of blue and green symbolizing technology and innovation, on a textureless white base. The image must also incorporate a brightly shining light, suggestive of fresh ideas and innovations in the field. The overall color scheme should consist of cool tones to convey a professional and technological feel.

    Redução de Memória em Modelos de Raciocínio: Inovações e Desafios

    Create a 2D, flat corporate-style vector image on a white, texture-less background. The image should feature elements symbolising cybersecurity, including padlocks to symbolise security, and alert icons to represent risks. There should also be a technological background that reflects the AI environment, highlighting the importance of security in artificial intelligence.

    Segurança em LLM: Riscos e Melhores Práticas para Proteger a Inteligência Artificial

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page