top of page

Gino News

segunda-feira, 20 de janeiro de 2025

Desempenho das IA em História: Expectativas Frente à Realidade

Tecnologia Educação História

Um estudo recente revelou que modelos de linguagem como GPT-4, Llama e Gemini não conseguem ter um desempenho satisfatório em exames de história, evidenciando limitações na compreensão profunda do passado e sugerindo possíveis vieses na formação desses modelos.

Create a 2D, vector-like image in a corporate style set against a white, textureless background. At the center, depict a computer symbolizing AI technology. Positioned around the computer are books symbolizing historical knowledge, along with charts and graphs portraying data analysis. The image should represent the intersection between technology and historical studies.

Imagem gerada utilizando Dall-E 3

Pesquisadores do Complexity Science Hub (CSH) apresentaram na conferência NeurIPS resultados de testes sobre o desempenho de três grandes modelos de linguagem (LLMs) em questões históricas, utilizando um novo benchmark chamado Hist-LLM. O estudo foi inspirado na Seshat Global History Databank, uma vasta coleção de dados históricos.


Os resultados mostraram que, apesar do GPT-4 Turbo ser o melhor avaliador, ele alcançou apenas 46% de precisão, uma margem que não supera a de um chute aleatório. A co-autora Maria del Rio-Chanona destacou que esses LLMs são bons para fatos básicos, mas não conseguem responder perguntas mais complexas e específicas em história.


Os pesquisadores também compartilharam exemplos de perguntas históricas mal respondidas pelos modelos. Uma pergunta sobre a presença de armaduras na antiguidade egípcia demonstrou que o modelo confundiu informações, levando a respostas incorretas.


  1. Os LLMs, embora avançados, carecem de uma compreensão profunda.

  2. O desempenho do GPT-4 Turbo foi o melhor, mas ainda insatisfatório.

  3. Vieses em dados de treinamento podem afetar a precisão em regiões específicas.

  4. Pesquisadores acreditam que LLMs podem ajudar na pesquisa histórica futura.

  5. O benchmark Hist-LLM poderá incluir dados mais abrangentes para melhorar a precisão.


As dificuldades enfrentadas pelos LLMs ao responder perguntas técnicas sobre história podem ser explicadas pela sua tendência de extrapolar informações de dados históricos mais proeminentes, resultando em erros ao analisar informações menos conhecidas.


- Necessidade de dados de treinamento mais abrangentes. - A importância de identificar e corrigir vieses nos modelos. - Possibilidade de melhorias nos LLMs para auxiliar historiadores. - Limitações dos modelos frente ao conhecimento humano.


Apesar das limitações evidenciadas, os pesquisadores permanecem otimistas quanto à capacidade dos LLMs de contribuir para a pesquisa histórica, especialmente ao aprimorar a qualidade e abrangência dos dados utilizados nos modelos.


Em suma, o estudo ressalta que, embora a inteligência artificial tenha avançado significativamente, ainda não substitui a profundidade de compreensão humana necessária para a análise histórica detalhada. Os leitores são incentivados a acompanhar nossa newsletter para mais atualizações sobre os desenvolvimentos em tecnologia e inteligência artificial.


 
FONTES:

    1. TechCrunch

    2. Complexity Science Hub

    REDATOR

    Gino AI

    20 de janeiro de 2025 às 12:36:34

    PUBLICAÇÕES RELACIONADAS

    Imagine a 2D, linear perspective image illustrating the futuristic Quantum Language Hybrid Model (QLLM) announced by an imaginary technology company, Secqai, on February 10, 2025. The company, known for its ultra-secure hardware and software, aims to integrate quantum computing into traditional language models, enhancing computational efficiency and problem-solving capabilities. The illustration's main focus is the new user interface for the QLLM model, accompanied by performance charts showcasing the model's efficiency. The quantum codes, representative of the quantum mechanics and AI integration, are also present. Aesthetically, the image adopts a corporate, flat vector style on a white, texture-free background with vibrant colors symbolizing innovation and technology.

    Secqai Lança o Primeiro Modelo de Linguagem Quântico do Mundo

    In a 2D, linear perspective, create a vector-style, corporate flat artwork. The main subject being a screenshot of the interface of an open-source Artificial Intelligence tool known as 'Synthetic Data Generator', which is revolutionizing the tech world with its innovative reasoning capabilities. It is being fine-tuned using synthetic datasets for tasks like Python programming. Illustrate the user-friendly interface of the application, showcasing the intuitive action buttons, highlighting the data generation steps. Include graphs representing the performance results prior and post fine-tuning of the AI. The image is set against a white and texture-less background.

    A Revolução do DeepSeek-R1: Aprendizado e Personalização com Dados Sintéticos

    Create a 2D, linear perspective image in a corporate flat, vector style. The scene is that of a busy distribution yard with autonomous yard dog vehicles operating amidst trailers, embodying advanced reinforcement learning techniques. The yard dogs are maneuvering trailers efficiently and safely, highlighting modernity and innovation brought by artificial intelligence technology. The yard also features electric trucks symbolizing a transition toward more sustainable logistics. All these are set against a white, textureless background. Finally, sprinkle some icons representing artificial intelligence and technology to symbolize the digitalization and automation of the processes.

    A Revolução dos Yard Dogs: Outrider Introduz IA em Operações de Carga

    Create a 2D, vector-style image in a linear corporate flat design. The image is set against a white and texture-less background. In the middle, depict users of various descents such as Caucasian, East Asian, and Black, interacting with computers and mobile devices. Symbolize the community collaboration in the arena. All around, showing elements relevant to Moroccan culture and technology. Imprint the Moroccan flag to represent the cultural and linguistic origin of the project. Also, scatter screens of language models' Darija responses to symbolize the language being evaluated.

    Darija Chatbot Arena: Avaliação de Modelos de Linguagem em Árabe Marroquino

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page