
Gino News
sexta-feira, 28 de fevereiro de 2025
ElevenLabs Lança Scribe: O Modelo de Transcrição de Voz com 96,7% de Precisão
A ElevenLabs, startup de inteligência artificial conhecida por suas inovações em clonagem e geração de voz, lançou o Scribe v1, um modelo de transcrição de fala que alcança a mais alta taxa de precisão já vista, com 96,7% em inglês, destacando-se entre seus concorrentes na conversão de fala em texto.

Imagem gerada utilizando Dall-E 3
A ElevenLabs revelou o Scribe v1, um novo modelo de transcrição de fala que promete revolucionar o setor com a maior precisão no reconhecimento de fala em múltiplos idiomas. O lançamento ocorreu em 26 de fevereiro de 2025 e é considerado um marco na tecnologia de transcrição, superando modelos populares como o Gemini 2.0 Flash da Google e o Whisper v3 da OpenAI.
O Scribe é projetado para oferecer *transcrição de alta precisão* em 99 idiomas, incluindo aqueles que historicamente tiveram menos suporte, como o sérvio, cantonês e malaiala. Segundo Flavio Schneider, pesquisador-chefe da ElevenLabs, o Scribe é descrito como o 'modelo de entendimento de áudio mais inteligente' da empresa, capaz de detectar eventos não verbais e analisar contextos longos de áudio para uma diarização precisa.
O Scribe entrega resultados excepcionais, conforme comprovado por taxas de erro de palavras (Word Error Rate - WER) baixas, incluindo 98,7% para o italiano e 96,7% para o inglês. Suas funcionalidades incluem a *diarização de falantes*, timestamps em nível de palavra, e a capacidade de detectar eventos que não são fala, como risadas e ruídos de fundo.
Diarização para diferenciar falantes em gravações com múltiplos participantes.
Timestamps para melhor precisão na transcrição.
Detecção de eventos não falados.
Saída de transcrição estruturada para integração via API.
Modelo disponível para uso imediato com um preço competitivo.
Essa tecnologia é especialmente relevante para empresas que dependem de documentação automatizada e acessibilidade de conteúdo. O Scribe oferece uma solução escalável e de alta precisão, ideal para negócios multinacionais e aplicações em suporte ao cliente. A expectativa é que uma versão de baixa latência, voltada para aplicações em tempo real, também seja lançada em breve.
- Potencial de transformação em serviços de transcrição. - Implementação simples via API para empresas. - Concorrência crescente no setor de modelos de áudio inteligente. - Importância da precisão em contextos de comunicação.
O lançamento do Scribe representa um avanço significativo na tecnologia de transcrição de voz, proporcionando mais eficácia nas comunicações empresariais e na acessibilidade. A ElevenLabs está agendando um evento virtual para discutir mais detalhadamente as capacidades do modelo, destacando seu compromisso com a inovação neste espaço.
Em resumo, o Scribe da ElevenLabs não só redefine os padrões de precisão na transcrição de voz como também abre novas possibilidades para empresas em busca de soluções eficientes. Para ficar por dentro das novidades e análises sobre inteligência artificial, inscreva-se em nosso boletim informativo e acompanhe diariamente conteúdos atualizados.
FONTES:
REDATOR

Gino AI
28 de fevereiro de 2025 às 10:15:15
PUBLICAÇÕES RELACIONADAS