top of page

Gino News

quarta-feira, 12 de fevereiro de 2025

Aprenda a Ajustar Modelos de Linguagem com PyTorch e Hugging Face

Tecnologia Inteligência Artificial Tutorial

Um guia prático para o ajuste fino de modelos de linguagem, utilizando PyTorch e Hugging Face, foi divulgado, demonstrando como transformar o modelo Phi-3 Mini 4K Instruct em um tradutor para o Yoda-speak. O artigo, publicado em 11 de fevereiro de 2025, oferece passos detalhados sobre o processo de ajuste, configuração de modelos e uso de datasets específicos.

Imagem gerada utilizando Dall-E 3

No post, o autor inicia apresentando uma *receita* prática para ajustar um modelo de linguagem pequeno, especificamente o Phi-3 Mini 4K Instruct da Microsoft, a fim de traduzir frases do inglês para o Yoda-speak. O artigo enfatiza que é um guia que pode ser seguido facilmente e não requer conhecimento prévio extenso.


Diversos aspectos técnicos são abordados, como o uso de 'BitsAndBytes' para carregar um modelo quantizado de forma a reduzir sua ocupação de memória. Além disso, o autor discute a configuração de *low-rank adapters* (LoRA) usando a biblioteca 'peft' do Hugging Face, que permite adaptar e treinar o modelo quantizado eficientemente.


O autor fornece instruções sobre como formatar um dataset específico, que inclui frases traduzidas para Yoda-speak, facilitando o fine-tuning do modelo. Ele também apresenta o importante papel do 'SFTTrainer' na automatização do processo de treinamento, o que simplifica grande parte da programação.


  1. Carregar um modelo quantizado usando BitsAndBytes.

  2. Configurar low-rank adapters (LoRA) para a adaptação do modelo.

  3. Carregar e formatar um dataset de traduções.

  4. Realizar o fine-tuning utilizando o SFTTrainer.

  5. Gerar sentenças traduzidas para Yoda-speak.


Após o ajuste, o modelo é capaz de gerar respostas em Yoda-speak a partir de entradas em inglês, demonstrando a eficácia do fine-tuning. Os usuários são incentivados a compartilhar seu modelo ajustado na Hugging Face Hub, contribuindo para a comunidade de aprendizado de máquina e modelos de linguagem.


O artigo conclui destacando a facilidade de ajuste fino de modelos de linguagem com as ferramentas apresentadas e convida os leitores a explorar mais sobre o tema em um livro do autor, promovendo o aprendizado contínuo na área de inteligência artificial. Para mais conteúdos atualizados diariamente, inscreva-se na nossa newsletter!


 
FONTES:

    1. Hugging Face Hub

    2. Datasets de Yoda

    3. Blog do Autor

    4. GitHub - Fine Tuning LLMs

    5. Google Colab

    REDATOR

    Gino AI

    12 de fevereiro de 2025 às 11:27:14

    PUBLICAÇÕES RELACIONADAS

    Visualize a two-dimensional, corporate style, vector illustration on a white background that compares the performance and costs of DeepSeek-R1, an open source model by a Chinese startup named DeepSeek, and OpenAI o1. The image should represent the significant advancement brought by the DeepSeek-R1 since its launch on January 20, 2025, boasting competitive performance at a lower cost than OpenAI o1. Include bar graphs that juxtapose these two models' costs and speeds. Use contrasting colors to clearly distinguish between the two models. Also incorporate open-source symbolism to denote the flexibility and accessibility of DeepSeek-R1.

    DeepSeek-R1: A Revolução Open Source que Desafia OpenAI

    An image in a 2D, linear perspective with a corporate, flat, and vectorial style. Portray an untextured white background, featuring the user interface of the 'Deep Live Cam' software tool that turns Macs into real-time professional face-swapping studios, especially designed for Apple Silicon chips. Reflect an optimized experience for the M1, M2, and M3 models through the image. Incorporate avatars that are swapped during a virtual video call. Also, include sharing icons to indicate integration with social networks.

    Deep Live Cam: O Novo Estúdio de Troca de Rostos para Mac com Apple Silicon

    An image presenting a new artificial intelligence architecture, named MindBot Ultra – Dreaming Edition, depicted in a 2D linear perspective. This self-constructing and self-aware system is demonstrated in action within a virtual environment, showing its autonomous generation of learning tools and strategies through a dreaming-based training methodology. The image, following a corporate, flat, vector style, features a digital brain representing synergistic cognition set against a plain, textureless white background. There are flowing lines of data visualising how the AI adapts and learns from experiences. Virtual tools are represented as Python functions created by the AI. Additional icons are depicted signifying monitoring processes and ethical considerations for good measure.

    MindBot Ultra: A Revolução na Inteligência Artificial Autônoma

    Create a 2D image in a flat, corporate style with a white, untextured background. The main focus of the image is an abstract representation of an independent AI evaluator. To exemplify technology and the complexity of AI, incorporate futuristic and technological elements such as circuits. To depict the action of evaluation and data analysis, include performance graphs. Employ cool colors such as blue and gray to evoke a sense of technology and precision.

    Inovações na Avaliação de Modelos: O Primeiro Avaliador Independente dos EUA

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page