top of page

Gino News

terça-feira, 8 de outubro de 2024

Molmo da AI2 Supera GPT-4 e Claude em Benchmarks Chave

Inteligência Artificial Tecnologia Inovação

O Allen Institute for AI (AI2) apresentou hoje o Molmo, um modelo multimodal de inteligência artificial open-source que supera concorrentes como GPT-4o da OpenAI e Claude 3.5 da Anthropic em diversos benchmarks, prometendo avanços significativos na análise de imagens.

Depict a vector-style, 2D corporate flat design scene following a linear perspective. In this setting, the Molmo model, an open-source multimodal artificial intelligence model from the Allen Institute for AI, is shown operating on a user interface. This displays Molmo's image analysis capabilities and visual interactions. The scene is set up for a live demonstration where Molmo is responding to questions about the content of the image in front of it. Additional elements in the scene are user interface evidencing a Molmo-user interaction, examples of images representing the type of visuals analysed by Molmo, performance charts showing benchmark comparisons between Molmo and its rivals. Use a white, untextured background and populate the design with technology-inspired colors of blue and green.

Imagem gerada utilizando Dall-E 3

O Molmo (Multimodal Open Language Model), desenvolvido pelo AI2, é um modelo revolucionário que se destaca não como um chatbot convencional, mas como um motor de compreensão visual altamente eficiente. Sem uma API ou funcionalidade de site, Molmo é projetado para análise de imagens e respostas a consultas baseadas em visuais, tendo seu desempenho testado em vários benchmarks em comparação com gigantes do setor.


Com quatro versões — Molmo-72B, Molmo-7B-D, Molmo-7B-O e MolmoE-1B —, o Molmo é capaz de realizar tarefas visuais, como identificar opções em menus veganos ou explicar o funcionamento de electrodomésticos, superando alternativas proprietárias em eficiência. Seu modelo mais robusto, o Molmo-72B, conseguiu as melhores pontuações em 11 benchmarks principais, posicionando-se como o segundo em preferência dos usuários, logo atrás do GPT-4o.


O Molmo, que elimina a premissa de que 'quanto maior, melhor' em inteligência artificial, foi treinado com 600.000 imagens cuidadosamente anotadas, ao contrário de bilhões utilizadas por modelos concorrentes. Essa abordagem resultou em um modelo que, apesar do tamanho reduzido, apresenta desempenho equivalente ao de modelos como GPT-4o e Claude 3.5 Sonnet, destacando-se especialmente em tarefas de 'zero-shot' como contagem de objetos.


  1. Molmo utiliza apenas 1000x menos dados que seus concorrentes proprietários.

  2. Desempenho superior em benchmarks como DocVQA e TextVQA.

  3. Modelo open-source, permitindo acesso a pesquisadores e desenvolvedores.

  4. Inovação no uso de dados de apontamento, melhorando a interação robótica.

  5. Desenvolvimento de um pipeline de treinamento otimizado sem reforço de aprendizado de feedback humano.


A arquitetura do Molmo prioriza a eficiência, utilizando o modelo CLIP da OpenAI como encoder visual, o que permite uma transformação eficaz de imagens em tokens visuais. Com um sistema de treinamento dividido em pré-treinamento multimodal e refinamento supervisionado, Molmo se destaca pela falta de dependência de métodos tradicionais como RLHF, resultando em um modelo altamente competente.


- Capacidade de análise visual superior. - Acesso democrático à tecnologia. - Evidência de que menores modelos podem ter grande desempenho. - Potencial impacto na evolução das interações robóticas. - Inovação em métodos de treinamento de IA.


Com um ambiente de desenvolvimento que favorece inovações sem os custos associados aos grandes sistemas, o Molmo não apenas desafia os dominantes no campo da inteligência artificial, como também reitera a importância do acesso e personalização na tecnologia.


A criação do Molmo representa um marco no campo da inteligência artificial, incentivando desenvolvedores e pesquisadores a explorar novas possibilidades sem as limitações impostas por grandes corporações. Para acompanhar mais novidades e análises sobre inovações em IA, assine nossa newsletter e fique sempre atualizado.


 
FONTES:

    1. VentureBeat

    2. Blog do AI2

    3. Hugging Face

    4. AI Chief

    5. Twitter AI2

    REDATOR

    Gino AI

    8 de outubro de 2024 às 22:49:35

    PUBLICAÇÕES RELACIONADAS

    Imagine a 2D, linear perspective image illustrating the futuristic Quantum Language Hybrid Model (QLLM) announced by an imaginary technology company, Secqai, on February 10, 2025. The company, known for its ultra-secure hardware and software, aims to integrate quantum computing into traditional language models, enhancing computational efficiency and problem-solving capabilities. The illustration's main focus is the new user interface for the QLLM model, accompanied by performance charts showcasing the model's efficiency. The quantum codes, representative of the quantum mechanics and AI integration, are also present. Aesthetically, the image adopts a corporate, flat vector style on a white, texture-free background with vibrant colors symbolizing innovation and technology.

    Secqai Lança o Primeiro Modelo de Linguagem Quântico do Mundo

    Create a 2D vector image in a flat and corporate style on a white, texture-less background. The image should prominently display a graph that illustrates a decrease in critical thinking as the usage of generative AI in the workplace increases, specifically shown through contrasting scales. Relevant to the data, include sober colors instilling a sense of caution about the situation. Additionally, design assorted icons that symbolize cognitive abilities, representative of those abilities at risk due to over-reliance on AI technology.

    A Dependência da Inteligência Artificial e o Risco ao Pensamento Crítico

    In a 2D, linear perspective, create a vector-style, corporate flat artwork. The main subject being a screenshot of the interface of an open-source Artificial Intelligence tool known as 'Synthetic Data Generator', which is revolutionizing the tech world with its innovative reasoning capabilities. It is being fine-tuned using synthetic datasets for tasks like Python programming. Illustrate the user-friendly interface of the application, showcasing the intuitive action buttons, highlighting the data generation steps. Include graphs representing the performance results prior and post fine-tuning of the AI. The image is set against a white and texture-less background.

    A Revolução do DeepSeek-R1: Aprendizado e Personalização com Dados Sintéticos

    Create a 2D, linear perspective image in a corporate flat, vector style. The scene is that of a busy distribution yard with autonomous yard dog vehicles operating amidst trailers, embodying advanced reinforcement learning techniques. The yard dogs are maneuvering trailers efficiently and safely, highlighting modernity and innovation brought by artificial intelligence technology. The yard also features electric trucks symbolizing a transition toward more sustainable logistics. All these are set against a white, textureless background. Finally, sprinkle some icons representing artificial intelligence and technology to symbolize the digitalization and automation of the processes.

    A Revolução dos Yard Dogs: Outrider Introduz IA em Operações de Carga

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page