Meta retorna à IA de código aberto com modelos Omnilingual ASR que podem transcrever mais de 1.600 idiomas nativamente

Meta retorna à IA de código aberto com modelos Omnilingual ASR que podem transcrever mais de 1.600 idiomas nativamente

A Meta acaba de lançar um novo sistema multilíngue de reconhecimento automático de fala (ASR) com suporte para mais de 1.600 idiomas – superando o modelo Whisper de código aberto da OpenAI, que suporta apenas 99.

Essa arquitetura também permite que os desenvolvedores estendam esse suporte a milhares de outros. Por meio de um recurso chamado aprendizagem contextual zero-shot, os usuários podem fornecer alguns exemplos emparelhados de áudio e texto em um novo idioma no momento da inferência, permitindo que o modelo transcreva declarações adicionais nesse idioma sem qualquer retreinamento.

Na prática, isto expande a cobertura potencial para mais de 5.400 línguas – praticamente todas as línguas faladas com uma escrita conhecida.

É uma mudança das capacidades do modelo estático para uma estrutura flexível que as próprias comunidades possam adaptar. Assim, embora os 1.600 idiomas reflitam a cobertura oficial do treinamento, o número mais amplo representa a capacidade do Omnilingual ASR de generalizar sob demanda, tornando-o o sistema de reconhecimento de fala mais extensível lançado até o momento.

O melhor de tudo: é de código aberto sob uma licença simples do Apache 2.0 — e não uma licença Llama restritiva e quase de código aberto como os lançamentos anteriores da empresa, que limitavam o uso por empresas maiores, a menos que pagassem taxas de licenciamento — o que significa que pesquisadores e desenvolvedores são livres para adotá-lo e implementá-lo imediatamente, de graça, sem restrições, mesmo em projetos comerciais e de nível empresarial!

Lançado em 10 de novembro no site da Meta, Github, junto com um espaço de demonstração no Hugging Face e artigo técnico, o pacote Omnilingual ASR da Meta inclui uma família de modelos de reconhecimento de fala, um modelo de representação de áudio multilíngue de 7 bilhões de parâmetros e um enorme corpus de fala abrangendo mais de 350 idiomas anteriormente mal atendidos.

Todos os recursos estão disponíveis gratuitamente sob licenças abertas e os modelos suportam transcrição de voz para texto pronta para uso.

“Ao abrir o código desses modelos e conjuntos de dados, pretendemos quebrar barreiras linguísticas, expandir o acesso digital e capacitar comunidades em todo o mundo”, postou Meta em sua conta @AIatMeta no X

Projetado para transcrição de fala para texto

Basicamente, o Omnilingual ASR é um sistema de conversão de fala em texto.

Os modelos são treinados para converter linguagem falada em texto escrito, suportando aplicações como assistentes de voz, ferramentas de transcrição, legendas, digitalização de arquivos orais e recursos de acessibilidade para idiomas com poucos recursos.

Ao contrário dos modelos ASR anteriores que exigiam extensos dados de treinamento rotulados, o Omnilingual ASR inclui uma variante zero-shot.

Esta versão pode transcrever idiomas nunca antes vistos – usando apenas alguns exemplos emparelhados de áudio e texto correspondente.

Isto reduz drasticamente a barreira para a adição de línguas novas ou ameaçadas, eliminando a necessidade de grandes corpora ou de reciclagem.

Família de modelos e desenho técnico

O conjunto Omnilingual ASR inclui diversas famílias de modelos treinados em mais de 4,3 milhões de horas de áudio em mais de 1.600 idiomas:

  • Modelos wav2vec 2.0 para aprendizagem auto-supervisionada de representação de fala (parâmetros 300M – 7B)

  • Modelos ASR baseados em CTC para transcrição supervisionada eficiente

  • Modelos LLM-ASR combinando um codificador de fala com um decodificador de texto baseado em Transformer para transcrição de última geração

  • Modelo LLM-ZeroShot ASR, permitindo adaptação do tempo de inferência para idiomas invisíveis

Todos os modelos seguem um design codificador-decodificador: o áudio bruto é convertido em uma representação independente de linguagem e depois decodificado em texto escrito.

Por que a escala é importante

Embora o Whisper e modelos semelhantes tenham capacidades avançadas de ASR para línguas globais, eles ficam aquém da longa cauda da diversidade linguística humana. O Whisper oferece suporte a 99 idiomas. Sistema da Meta:

  • Suporta diretamente mais de 1.600 idiomas

  • Pode generalizar para mais de 5.400 idiomas usando aprendizagem contextual

  • Atinge taxas de erro de caracteres (CER) inferiores a 10% em 78% dos idiomas suportados

Entre os suportados estão mais de 500 idiomas nunca antes cobertos por qualquer modelo ASR, de acordo com o artigo de pesquisa da Meta.

Esta expansão abre novas possibilidades para comunidades cujas línguas são frequentemente excluídas das ferramentas digitais

Aqui está a seção de histórico revisada e ampliada, integrando o contexto mais amplo da estratégia de IA da Meta para 2025, mudanças de liderança e recepção do Llama 4, completa com citações e links no texto:

Antecedentes: Revisão da IA ​​do Meta e uma recuperação do Llama 4

O lançamento do Omnilingual ASR chega em um momento crucial na estratégia de IA da Meta, após um ano marcado por turbulência organizacional, mudanças de liderança e execução desigual de produtos.

Omnilingual ASR é o primeiro grande lançamento de modelo de código aberto desde o lançamento do Llama 4, o mais recente modelo de linguagem grande da Meta, que estreou em abril de 2025 com críticas mistas e, em última análise, ruins, com escassa adoção empresarial em comparação com concorrentes chineses de modelos de código aberto.

O fracasso levou o fundador e CEO da Meta, Mark Zuckerberg, a nomear Alexandr Wang, cofundador e ex-CEO do fornecedor de dados de IA Scale AI, como diretor de IA, e embarcar em uma onda de contratações extensa e cara que chocou a IA e as comunidades empresariais com pacotes de remuneração impressionantes para os principais pesquisadores de IA.

Em contraste, a ASR Omnilingual representa uma redefinição estratégica e de reputação. Ele retorna o Meta a um domínio onde a empresa tem liderado historicamente – IA multilíngue – e oferece uma pilha verdadeiramente extensível e voltada para a comunidade, com barreiras mínimas de entrada.

O suporte do sistema para mais de 1.600 idiomas e sua extensibilidade para mais de 5.000 por meio do aprendizado zero-shot no contexto reafirmam a credibilidade da engenharia da Meta em tecnologia de linguagem.

É importante ressaltar que isso é feito por meio de uma versão gratuita e licenciada de forma permissiva, no Apache 2.0, com fornecimento transparente de conjuntos de dados e protocolos de treinamento reproduzíveis.

Esta mudança está alinhada com temas mais amplos da estratégia da Meta para 2025. A empresa reorientou a sua narrativa em torno de uma visão de “superinteligência pessoal”, investindo pesadamente em infraestrutura (incluindo um lançamento em setembro de aceleradores de IA personalizados e pilhas de inferência baseadas em Arm) enquanto minimiza o metaverso em favor de capacidades fundamentais de IA. O regresso aos dados públicos de formação na Europa após uma pausa regulamentar também sublinha a sua intenção de competir a nível global, apesar do escrutínio da fonte.

ASR omnilíngue, então, é mais do que um lançamento de modelo – é um movimento calculado para reafirmar o controle da narrativa: do lançamento fragmentado do Llama 4 a uma contribuição de alta utilidade e baseada em pesquisa que se alinha com a estratégia de plataforma de IA de longo prazo da Meta.

Coleta de conjuntos de dados centrados na comunidade

Para atingir esta escala, a Meta fez parceria com investigadores e organizações comunitárias em África, na Ásia e noutros locais para criar o Omnilingual ASR Corpus, um conjunto de dados de 3.350 horas em 348 idiomas com poucos recursos. Os colaboradores foram palestrantes locais remunerados e as gravações foram coletadas em colaboração com grupos como:

  • Próximas vozes africanas: Um consórcio apoiado pela Fundação Gates, incluindo a Universidade Maseno (Quênia), a Universidade de Pretória e a Data Science Nigeria

  • A voz comum da Mozilla Foundationapoiado pelo Open Multilingual Speech Fund

  • Lanfrica / NaijaVozesque criou dados para 11 línguas africanas, incluindo Igala, Serer e Urhobo

A coleta de dados concentrou-se na fala natural e improvisada. As solicitações foram elaboradas para serem culturalmente relevantes e abertas, como “É melhor ter alguns amigos próximos ou muitos conhecidos casuais? Por quê?” As transcrições usaram sistemas de escrita estabelecidos, com garantia de qualidade incorporada em cada etapa.

Considerações sobre desempenho e hardware

O maior modelo do conjunto, o omniASR_LLM_7B, requer aproximadamente 17 GB de memória GPU para inferência, tornando-o adequado para implantação em hardware de última geração. Modelos menores (300M–1B) podem funcionar em dispositivos de menor consumo de energia e fornecer velocidades de transcrição em tempo real.

Os benchmarks de desempenho mostram resultados sólidos mesmo em cenários de poucos recursos:

  • CER <10% em 95% dos idiomas de recursos altos e médios

  • CER <10% em 36% dos idiomas de poucos recursos

  • Robustez em condições ruidosas e domínios invisíveis, especialmente com ajuste fino

O sistema zero-shot, omniASR_LLM_7B_ZS, pode transcrever novos idiomas com configuração mínima. Os usuários fornecem alguns pares de áudio-texto de amostra, e o modelo gera transcrições para novos enunciados no mesmo idioma.

Acesso aberto e ferramentas para desenvolvedores

Todos os modelos e o conjunto de dados são licenciados sob termos permissivos:

  • Apache 2.0 para modelos e código

  • CC-BY 4.0 para o Omnilingual ASR Corpus no HuggingFace

A instalação é suportada via PyPI e uv:

pip install omnilingual-asr

Meta também fornece:

  • Uma integração do conjunto de dados HuggingFace

  • Pipelines de inferência pré-construídos

  • Condicionamento de código de idioma para maior precisão

Os desenvolvedores podem ver a lista completa de idiomas suportados usando a API:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs))
print(supported_langs)

Implicações mais amplas

ASR omnilíngue reformula a cobertura linguística em ASR de uma lista fixa para uma estrutura extensível. Ele permite:

  • Inclusão orientada pela comunidade de línguas sub-representadas

  • Acesso digital para línguas orais e ameaçadas de extinção

  • Pesquisa sobre tecnologia da fala em contextos linguisticamente diversos

Crucialmente, Meta enfatiza considerações éticas em todo o livro – defendendo a participação de código aberto e a colaboração com comunidades de língua nativa.

“Nenhum modelo pode antecipar e incluir todas as línguas do mundo com antecedência”, afirma o documento Omnilingual ASR, “mas o Omnilingual ASR torna possível que as comunidades alarguem o reconhecimento com os seus próprios dados”.

Acesse as ferramentas

Todos os recursos já estão disponíveis em:

  • Código + Modelos: github.com/facebookresearch/omnilingual-asr

  • Conjunto de dados: huggingface.co/datasets/facebook/omnilingual-asr-corpus

  • Postagem do blog: ai.meta.com/blog/omnilingual-asr

O que isso significa para as empresas

Para desenvolvedores empresariais, especialmente aqueles que operam em mercados multilíngues ou internacionais, o Omnilingual ASR reduz significativamente a barreira para a implantação de sistemas de fala para texto em uma ampla gama de clientes e regiões geográficas.

Em vez de depender de APIs comerciais de ASR que oferecem suporte apenas a um conjunto restrito de linguagens com muitos recursos, as equipes agora podem integrar um pipeline de código aberto que abrange mais de 1.600 idiomas prontos para uso, com a opção de estendê-lo para milhares de outros por meio de aprendizagem imediata.

Esta flexibilidade é especialmente valiosa para empresas que trabalham em setores como o apoio ao cliente baseado em voz, serviços de transcrição, acessibilidade, educação ou tecnologia cívica, onde a cobertura do idioma local pode ser uma necessidade competitiva ou regulamentar. Como os modelos são lançados sob a licença permissiva Apache 2.0, as empresas podem ajustá-los, implantá-los ou integrá-los em sistemas proprietários sem termos restritivos.

Também representa uma mudança no cenário de ASR – de ofertas centralizadas e controladas pela nuvem para uma infraestrutura extensível pela comunidade. Ao tornar o reconhecimento de fala multilíngue mais acessível, personalizável e econômico, o Omnilingual ASR abre as portas para uma nova geração de aplicativos de fala empresariais construídos em torno da inclusão linguística e não da limitação linguística.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *