A Origem dos Dados na Construção da Inteligência Artificial: Um Olhar Crítico

Inteligência Artificial Tecnologia Ética

A crescente dependência de dados na construção de modelos de inteligência artificial levanta preocupações sobre a origem desses dados e sua concentração em poucas empresas, conforme revela um estudo da Data Provenance Initiative, auditando quase 4.000 conjuntos de dados públicos.

Create a 2D, linear, and simplistic vector illustration on a white, untextured background, symbolizing the influence of vast data streams on Artificial Intelligence. Pictorially represent vibrant data flows converging into a central entity that signifies AI. At the bottom of the artwork, incorporate diverse data source icons, assuring to visually represent data from variant platforms such as a video platform, social media, and a web-based encyclopedia. The paths of the data flows should be outlined with arrows connecting the different sources to the central AI model. Lastly, use vivid colors to imply the diversity of information and complexity of the digital world, as well as an abstract background to hint at technology and connectivity.

Imagem gerada utilizando Dall-E 3

A inteligência artificial (AI) depende fundamentalmente de grandes volumes de dados para treinar seus algoritmos. Contudo, os desenvolvedores e pesquisadores de AI frequentemente desconhecem as fontes de dados que utilizam. Práticas de coleta de dados na AI têm se mostrado imaturas em comparação com a sofisticada evolução dos modelos de AI, o que gera um desafio sobre a transparência e a origem dos dados.

A Data Provenance Initiative, composta por mais de 50 pesquisadores, examinou quase 4.000 conjuntos de dados que abrangem 600 idiomas e 67 países. Os resultados revelaram que mais de 90% desses dados provêm de apenas algumas fontes dominantes, como a web, tornando a concentração de poder significativa nas mãos de grandes empresas de tecnologia.

As descobertas apontam que a maioria dos dados para modelos de vídeo e imagem, por exemplo, surge de plataformas como o YouTube. Essa tendência pode levar a uma concentração de poder que afeta a diversidade dos dados, refletindo uma visão ocidental e esquecendo culturas diversas.

Os conjuntos de dados atuais são predominantemente extraídos da internet.
Mais de 90% dos dados analisados são oriundos da Europa e América do Norte.
O uso de dados sintéticos aumentou, impulsionado pela necessidade de modelos maiores.
Práticas de compartilhamento de dados exclusivas por grandes empresas beneficiam poucos.
A falta de transparência sobre a origem dos dados pode levar a modelos enviesados.

A análise sugere que a concentração de dados não apenas limita o acesso de pesquisadores e pequenas empresas, mas também implica em modelos de AI que podem não capturar a complexidade da experiência humana, exacerbando preconceitos e desconsiderando diversas culturas.

O estudo da Data Provenance Initiative levanta questões cruciais sobre a ética e a diversidade na construção de modelos de inteligência artificial, sublinhando a necessidade de práticas mais transparentes e inclusivas. Encoraja-se o leitor a se aprofundar no tema e a acompanhar atualizações diárias em nossa newsletter, que traz questões relevantes sobre tecnologia e sociedade.