top of page

Gino News

terça-feira, 7 de janeiro de 2025

Dataset de Preferências Abertas Revoluciona Geração de Imagens a Partir de Texto

Tecnologia Inteligência Artificial Inovação

A comunidade do Huggingface lançou um novo dataset de preferências humanas, o Open Preferences Dataset V1, que coletou mais de 170 mil avaliações de 49 mil annotadores em apenas dois dias, visando aprimorar a geração de imagens a partir de texto.

Create a corporate-style, vector, and flat 2D image representing the breakthrough in image generation. The scene should include signs of technology like circuit designs and AI-generated images to represent innovation and computing. A silhouette of a South Asian woman should be seen observing these images, signifying human interaction. The added elements like graphics and data help illustrate the collection and analysis of preferences. Background should transition with a gentle gradient from blue to white, symbolizing a digital and futuristic environment.

Imagem gerada utilizando Dall-E 3

No campo em rápida evolução da geração de imagens a partir de texto, a qualidade dos modelos é fortemente influenciada por datasets que capturam as preferências humanas. Estes dados subjetivos são essenciais para medir e treinar modelos de forma eficaz. No entanto, reunir um dataset robusto apresenta um desafio significativo, pois exige um grande número de anotadores, o que tradicionalmente envolve altos custos.


Reconhecendo essa dificuldade, a comunidade 'Data is better together' do Huggingface decidiu agir. Eles lançaram um chamado aberto para coletar preferências para 17 mil pares de imagens, e em menos de 48 horas, conseguiram reunir 170 mil preferências de 49 mil annotadores ao redor do mundo. O dataset é composto por imagens geradas a partir de prompts refinados e filtrados, utilizando modelos como Flux e Stable Diffusion.


O dataset não apenas fornece uma quantidade significativa de preferências, mas também apresenta uma diversidade de anotadores, permitindo uma análise mais profunda das preferências em relação às imagens. Os resultados destacam diferenças nas preferências entre modelos, com o modelo FLUX sendo preferido para Anime e Manga, enquanto o Stable Diffusion foi favorecido em outras categorias.


  1. Coleta de 170 mil preferências em 2 dias.

  2. Utilização de 49 mil anotadores de diversos países.

  3. Geração de imagens com prompts filtrados e refinados.

  4. Análise de desempenho dos modelos FLUX e Stable Diffusion.

  5. Menor viés de anotador em relação a datasets anteriores.


A diversidade de anotadores e a quantidade de preferências coletadas permitem que este novo dataset traga uma perspectiva mais abrangente sobre os critérios que influenciam a preferência, como estilo e coerência. A análise também sugere que o dataset pode ser uma base valiosa para o treinamento e ajuste de novos modelos.


Em resumo, o lançamento do Open Preferences Dataset V1 pela comunidade Huggingface representa um avanço significativo na área de geração de imagens a partir de texto, promovendo maior qualidade e diversidade. Este dataset não só é um recurso valioso para pesquisadores e desenvolvedores, mas também abre portas para entendimentos mais profundos sobre as preferências humanas na avaliação de imagens. Para se manter atualizado sobre esses e outros desenvolvimentos no campo da inteligência artificial, inscreva-se em nossa newsletter e descubra conteúdos novos diariamente.


 
FONTES:

    1. Huggingface Blog

    2. Open Preferences Dataset

    3. Rapidata

    REDATOR

    Gino AI

    7 de janeiro de 2025 às 19:14:45

    PUBLICAÇÕES RELACIONADAS

    Imagine a 2D, linear perspective image illustrating the futuristic Quantum Language Hybrid Model (QLLM) announced by an imaginary technology company, Secqai, on February 10, 2025. The company, known for its ultra-secure hardware and software, aims to integrate quantum computing into traditional language models, enhancing computational efficiency and problem-solving capabilities. The illustration's main focus is the new user interface for the QLLM model, accompanied by performance charts showcasing the model's efficiency. The quantum codes, representative of the quantum mechanics and AI integration, are also present. Aesthetically, the image adopts a corporate, flat vector style on a white, texture-free background with vibrant colors symbolizing innovation and technology.

    Secqai Lança o Primeiro Modelo de Linguagem Quântico do Mundo

    Illustrate a project named LLaSA that has evolved from the LLaMA model aimed at multilingual speech synthesis, leading to the introduction of 'Llasagna', a system that generates natural speech in Italian and German, with significant advancements in its architecture and performance. The image should be in a flat, corporate style, with a vector-graphic design. The perspective is 2D and linear. Set this against a textureless white background. Include elements like a neural network graph, symbolizing the complexity of speech synthesis; icons of various languages to represent the multilingual capability of the model; visual audio elements highlighting the auditory nature of the synthesis; a backdrop with circuits to underscore the technology involved. Use vibrant colors to attract attention and reflect innovation.

    LLaSA: Avanços na Síntese de Fala Multilíngue com Llasagna

    Create a 2D, vector-style image in a linear corporate flat design. The image is set against a white and texture-less background. In the middle, depict users of various descents such as Caucasian, East Asian, and Black, interacting with computers and mobile devices. Symbolize the community collaboration in the arena. All around, showing elements relevant to Moroccan culture and technology. Imprint the Moroccan flag to represent the cultural and linguistic origin of the project. Also, scatter screens of language models' Darija responses to symbolize the language being evaluated.

    Darija Chatbot Arena: Avaliação de Modelos de Linguagem em Árabe Marroquino

    Create a 2D, vector-style, corporate image on a white, textureless background, representing a recent study investigating how an increase in instructions and tools available for a single ReAct agent impacts its performance. Include a performance chart comparing different AI models like claude-3.5-sonnet, gpt-4o, o1, and o3-mini across various task domains. Additionally, incorporate tool icons that represent the different tools used by the agents. Each model should be differentiated by distinct colors and efficiency symbols indicate a decrease in performance with an increase in domains. Lastly, include a subtle, abstract background pattern that doesn't distract but complements the primary visual message.

    Desempenho de Agentes ReAct: O Impacto do Aumento de Instruções e Ferramentas

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page