top of page

Gino News

domingo, 27 de outubro de 2024

Lançamento do Modelo Multilíngue mcdse-2b: Revolução na Recuperação de Documentos Visuais

Tecnologia Inteligência Artificial Inovação

Hoje, um novo modelo experimental de embeddings multilíngues chamado mcdse-2b foi introduzido, prometendo revolucionar a recuperação de documentos visuais. Desenvolvido e testado em um ambiente de pesquisa, o modelo mostra resultados promissores em diferentes idiomas e pode gerenciar uma variedade de conteúdos visuais sem a necessidade de OCR.

Imagem gerada utilizando Dall-E 3

O lançamento do modelo mcdse-2b-v1, desenvolvido na plataforma HuggingFace, representa um avanço significativo na forma como as informações visuais são recuperadas online. O modelo, que se baseia no dse-qwen2-2b-mrl-v1, utiliza a abordagem DSE para treinar embeddings que capturam informações de capturas de tela de páginas e slides, permitindo consultas com linguagem natural.


Com forte desempenho em cinco idiomas – italiano, espanhol, inglês, francês e alemão – o mcdse-2b-v1 demonstra a Matryoshka Representation Learning, permitindo escalabilidade eficiente das dimensões dos embeddings de 1536 para 256, mantendo 95% de qualidade. Além disso, a modelagem binária dos vetores facilita a codificação de até 100 milhões de páginas multilíngues em apenas 10GB.


As avaliações do modelo foram feitas utilizando um conjunto de dados construído especificamente para analisar seu desempenho em várias línguas. Com base em 100 consultas em mil índices de documentos, o mcdse-2b-v1 apresentou métricas superiores em comparação ao modelo base, indicando progresso significativo na recuperação de documentos visuais.


  1. Desempenho notável em múltiplos idiomas.

  2. Redução eficiente de dimensões enquanto mantém qualidade.

  3. Codificação de grandes volumes de dados com economia de recursos.

  4. Avaliações mostrando desempenho superior.

  5. Potencial de melhorias contínuas através de dados de usuários.


As pesquisas realizadas demonstram que o modelo não só supera as limitações de modelos anteriores mas também abre perspectivas para futuras aplicações em tecnologias de recuperação de informações visuais e RAG pipelines, que se beneficiam da flexibilidade e eficiência do mcdse-2b.


- Capacidade de processamento de consultas em linguagem natural. - Aplicabilidade em diversas áreas de pesquisa visual. - Possibilidade de open source dos dados para desenvolvedores. - Inspiração para novas metodologias de recuperação de dados.


A implementação do modelo no futuro pode levar a melhorias substanciais em sistemas de gerenciamento de informações e acessibilidade a dados visuais, facilitando a navegação e recuperação de documentos relevantes para usuários de diversas áreas.


O modelo mcdse-2b tem o potencial de transformar a recuperação de informações visuais, oferecendo uma alternativa robusta e eficiente ao uso de tecnologias tradicionais. Os desenvolvedores e pesquisadores são incentivados a testar o modelo em seus próprios conjuntos de dados. Para acompanhar mais novidades sobre tecnologias emergentes, inscreva-se em nossa newsletter e fique por dentro das melhores práticas e ferramentas do mercado.


 
FONTES:

    1. HuggingFace

    2. MrLight

    3. DSE Approach

    4. YOLOv10 Document Layout Analysis

    5. Shift Project

    REDATOR

    Gino AI

    28 de outubro de 2024 às 00:58:30

    PUBLICAÇÕES RELACIONADAS

    Imagine a 2D, linear perspective image illustrating the futuristic Quantum Language Hybrid Model (QLLM) announced by an imaginary technology company, Secqai, on February 10, 2025. The company, known for its ultra-secure hardware and software, aims to integrate quantum computing into traditional language models, enhancing computational efficiency and problem-solving capabilities. The illustration's main focus is the new user interface for the QLLM model, accompanied by performance charts showcasing the model's efficiency. The quantum codes, representative of the quantum mechanics and AI integration, are also present. Aesthetically, the image adopts a corporate, flat vector style on a white, texture-free background with vibrant colors symbolizing innovation and technology.

    Secqai Lança o Primeiro Modelo de Linguagem Quântico do Mundo

    Illustrate a project named LLaSA that has evolved from the LLaMA model aimed at multilingual speech synthesis, leading to the introduction of 'Llasagna', a system that generates natural speech in Italian and German, with significant advancements in its architecture and performance. The image should be in a flat, corporate style, with a vector-graphic design. The perspective is 2D and linear. Set this against a textureless white background. Include elements like a neural network graph, symbolizing the complexity of speech synthesis; icons of various languages to represent the multilingual capability of the model; visual audio elements highlighting the auditory nature of the synthesis; a backdrop with circuits to underscore the technology involved. Use vibrant colors to attract attention and reflect innovation.

    LLaSA: Avanços na Síntese de Fala Multilíngue com Llasagna

    Create a 2D, linear perspective image in a corporate flat, vector style. The scene is that of a busy distribution yard with autonomous yard dog vehicles operating amidst trailers, embodying advanced reinforcement learning techniques. The yard dogs are maneuvering trailers efficiently and safely, highlighting modernity and innovation brought by artificial intelligence technology. The yard also features electric trucks symbolizing a transition toward more sustainable logistics. All these are set against a white, textureless background. Finally, sprinkle some icons representing artificial intelligence and technology to symbolize the digitalization and automation of the processes.

    A Revolução dos Yard Dogs: Outrider Introduz IA em Operações de Carga

    Create a 2D, vector-style image in a linear corporate flat design. The image is set against a white and texture-less background. In the middle, depict users of various descents such as Caucasian, East Asian, and Black, interacting with computers and mobile devices. Symbolize the community collaboration in the arena. All around, showing elements relevant to Moroccan culture and technology. Imprint the Moroccan flag to represent the cultural and linguistic origin of the project. Also, scatter screens of language models' Darija responses to symbolize the language being evaluated.

    Darija Chatbot Arena: Avaliação de Modelos de Linguagem em Árabe Marroquino

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page