A Ursa da Speechmatics : O sistema de conversão de fala em texto mais preciso do mundo

byGrupo Motivação em Foco •março 28, 2023

0

A Ursa oferece um desempenho sem precedentes em uma gama diversificada de vozes. Observamos ganhos de precisão relativa de 22% e 25%* em comparação com o Whisper da Microsoft e da OpenAI, respectivamente.

A Ursa fornece a fala para texto mais precisa do mundo e é um avanço na acessibilidade, reduzindo a exclusão digital de vozes que outros sistemas de fala para texto lutam para reconhecer. Ficamos impressionados com a forma como a Ursa pode transcrever com precisão a fala desafiadora - em particular, a fala que teria sido impossível para um ser humano entender sem primeiro ler a transcrição. Descobrimos que Ursa também pode transcrever o canto muito bem, embora não tenhamos treinado especificamente para esse caso de uso. Você pode tentar entender os clipes a seguir sem mostrar as transcrições primeiro.

O que diferencia a Ursa de outras ofertas de fala para texto é sua precisão excepcional. A mudança para GPUs para inferência e a ampliação de nossos modelos permitiram que o modelo aprimorado da Ursa superasse a precisão de transcrição em nível humano no ^†conjunto de dados Kincaid46^[1] e removesse um adicional de 1 em cada 5 erros em média em comparação com a Microsoft, o grande fornecedor de nuvem mais próximo. Os modelos em inglês padrão e aprimorado da Ursa superam todos os outros fornecedores, oferecendo uma melhoria relativa significativa de 35% e 22%, respectivamente, em comparação com nossa versão anterior (mostrada na Tabela 1).

A transcrição de qualidade Ursa também está disponível para reconhecimento em tempo real, aproveitando os mesmos modelos subjacentes. Pela primeira vez, estamos tornando a transcrição acelerada por GPU possível no local, com a Ursa fornecendo precisão incomparável e baixo custo total de propriedade (TCO) para as empresas.

Além disso, estamos orgulhosos de lançar novos recursos de tradução juntamente com nosso inovador reconhecimento de fala. Juntas, essas tecnologias quebram as barreiras linguísticas e dão um grande salto em direção ao nosso objetivo de entender todas as vozes.

A Abordagem

Primeiro, foi treinado um modelo de aprendizado auto-supervisionado (SSL) usando mais de 1 milhão de horas de áudio não rotulado em 48 idiomas. Isso usa uma variante de transformador eficiente que aprende representações acústicas ricas da fala (internamente, nomeamos esses modelos com nomes de ursos, então achamos que era apropriado chamar nosso lançamento de "Ursa"). Em seguida, usamos dados de transcrição de áudio emparelhados em um segundo estágio para treinar um modelo acústico que aprende a mapear representações auto-supervisionadas para probabilidades de fonema. Os fonemas previstos são então mapeados em uma transcrição usando um modelo de linguagem grande para identificar a sequência mais provável de palavras.

Os modelos de diarização exploram as mesmas representações gerais auto-supervisionadas para melhorar nossas transcrições com informações do falante. Também aplicamos modelos de normalização de texto inverso (ITN) para processar entidades numéricas em nossas transcrições em uma forma escrita consistente e profissional. A formatação ITN consistente é imprescindível ao criar aplicativos que dependem de datas, horas, moedas e informações de contato.

O Poder da Escala

Com a Ursa, alcançamos nosso desempenho inovador dimensionando nosso modelo SSL em uma ordem de magnitude para 2 bilhões de parâmetros e nosso modelo de linguagem por um fator de 30, ambos os quais foram possíveis usando GPUs para inferência. As GPUs têm uma arquitetura altamente paralela, permitindo inferência de alta taxa de transferência, o que significa que mais fluxos de áudio podem ser processados em paralelo.

Com base nas descobertas do artigo Chinchilla da DeepMind^[2], o estagiário de verão Andy Lo, da Universidade de Cambridge, estabeleceu leis de dimensionamento para nossos modelos SSL e mostrou que esses modelos de áudio baseados em transformadores mostram propriedades de dimensionamento semelhantes aos modelos de linguagem grande. Ao escalar para 2 bilhões de parâmetros^‡, nossos modelos agora são capazes de aprender recursos acústicos mais ricos a partir de dados multilíngues não rotulados, permitindo-nos entender um espectro maior de coortes de voz.

Essas representações não apenas aumentam a precisão ao treinar um modelo acústico, mas também aumentam enormemente a eficiência da amostra do significado do nosso processo de treinamento, reduzindo o tempo de treinamento de nossos modelos de inglês de última geração de semanas para dias. Crucialmente, não precisamos de centenas de milhares de horas de áudio rotulado para fazer a mudança de passo na precisão mostrada pela Ursa. Isso nos permite obter precisão no nível do Sussurro com apenas alguns milhares de horas de áudio (200x menos).

Medindo a precisão ASR da Ursa

Para garantir uma avaliação abrangente de nossos sistemas, calculamos a taxa de erro de palavras (WER)^**, em 14 conjuntos de testes de código aberto de formato curto e 7 de formato longo, cobrindo uma ampla gama de domínios, como audiolivros no LibriSpeech[³] e chamadas financeiras no Earnings-22^[4]. A diversidade de falantes também é bem coberta pelo African American Vernacular English (AAVE) no CORAAL[⁵] e um conjunto global de falantes no CommonVoice^[6]. Tomamos uma média ponderada com base no número de palavras em cada conjunto de testes e garantimos que usamos o mesmo esquema de normalização que o Whisper. As médias citadas na Tabela 1 se comparam com a versão anterior do Speechmatics, enquanto a Tabela 2 se compara com outros fornecedores de fala para texto.

Nossa nova API de tradução

Nossa oferta de tradução permite que você traduza entre o inglês e 34 idiomas. Quando combinado com nossas transcrições precisas, os usuários recebem o melhor pacote de tradução para fala no mercado. Descobrimos que, ao construir um sistema composto desse tipo, a precisão no sistema subjacente de fala para texto aumenta significativamente o desempenho da tradução, como mostrado pelos escores mais altos do BLEU^[8]na Tabela 3 e na saída do exemplo em comparação com o Google na Tabela 4. O BLEU mede a semelhança da saída com transcrições de referência de alta qualidade, e os escores mais altos do BLEU alcançados pela Ursa mostram o poder da transcrição de alta qualidade em tarefas a jusante. Esperamos que essa tendência continue.

	WER ↓	BLEU ↑
Fonoaudiologia	8.9	33.83
Procurar Google	18.88	30.61

Tabela 3: A Speechmatics obtém uma pontuação BLEU mais alta em comparação com o Google no conjunto de dados CoVoST2^[9] para traduções do inglês para o alemão. A Speechmatics obtém uma taxa de erro de palavras (WER) significativamente menor do que o Google, auxiliando o serviço de tradução.

	Transcrição	Tradução
Fonomática:	Você deu a ela o dinheiro?	Hast du ihr das Geld gegeben?
Google:	Você continuou ouvindo o dinheiro?	Hast du ihrdas Geld gehört?

Tabela 4: Um exemplo que mostra como os erros de reconhecimento de fala afetam a precisão da tradução. Palavras em vermelho indicam os erros, com substituições em itálico e exclusões ~~riscadas~~.

O melhor da categoria

A Ursa representa um salto quântico em tecnologias de fala, estabelecendo um novo padrão para a indústria de fala para texto. Nosso modelo auto-supervisionado ampliado, combinado com o poder da computação baseada em GPU, permitiu que a Speechmatics alcançasse precisão, velocidade e desempenho downstream incomparáveis. A Ursa é a escolha clara para quem busca o melhor reconhecimento de fala e tradução da categoria, cumprindo nossa promessa de entender todas as vozes.

Fique atento para mais atualizações emocionantes da Speechmatics enquanto continuamos a nos esforçar para entender cada voz.

Trending