Meta AI ha lanzado el sistema de Reconocimiento Automático de Voz Omnilingüe, que proporciona reconocimiento de voz para más de 1,600 idiomas, y ha publicado modelos de código abierto y un corpus para 350 idiomas poco atendidos.
La división de investigación de la empresa tecnológica Meta, especializada en IA y realidad aumentada, Meta AI, anunció el lanzamiento del sistema Meta Omnilingual de Reconocimiento Automático de Voz (ASR).
Este conjunto de modelos ofrece reconocimiento de voz automático para más de 1,600 idiomas, logrando un rendimiento de alta calidad a una escala sin precedentes. Además, Meta AI está liberando como código abierto wav2vec 2.0 Omnilingual, un modelo de representación de voz multilingüe auto-supervisado con 7 mil millones de parámetros, diseñado para soportar una variedad de tareas de voz posteriores.
Junto con estas herramientas, la organización también lanza el Corpus de Reconocimiento Automático de Voz Omnilingual, una colección curada de transcripciones de voz de 350 idiomas poco atendidos, desarrollada en colaboración con socios globales.
El reconocimiento automático de voz ha avanzado en los últimos años, logrando una precisión casi perfecta en muchos idiomas ampliamente hablados. Sin embargo, ampliar la cobertura a idiomas con menos recursos ha sido un desafío debido a las altas demandas de datos y computación de las arquitecturas de IA existentes. El sistema Omnilingual ASR aborda esta limitación escalando el codificador de voz wav2vec 2.0 a 7 mil millones de parámetros, creando representaciones multilingües ricas a partir de voz cruda y sin transcribir. Dos variantes del decodificador convierten estas representaciones en tokens de caracteres: una usando clasificación temporal conexionista (CTC) y otra basada en transformadores, similar a los modelos de lenguaje grandes.
Este enfoque de ASR inspirado en LLM logra un rendimiento de vanguardia en más de 1,600 idiomas, con tasas de error de caracteres inferiores al 10% en el 78% de ellos, y presenta un método más flexible para agregar nuevos idiomas.
A diferencia de los sistemas tradicionales que requieren ajuste experto, Omnilingual ASR puede incorporar un idioma previamente no soportado usando solo unos pocos ejemplos combinados de audio y texto, permitiendo transcripciones sin necesidad de datos extensos, conocimientos especializados o hardware de alta gama. Aunque los resultados de cero disparos aún no igualan a los sistemas completamente entrenados, este método ofrece una forma escalable de integrar idiomas poco atendidos en el ecosistema digital.
Meta AI Avanzará en el Reconocimiento de Voz con la Suite y el Corpus Omnilingual ASR
La división de investigación ha lanzado una suite integral de modelos y un conjunto de datos diseñados para avanzar en la tecnología de voz para cualquier idioma. Basándose en investigaciones previas de FAIR, Omnilingual ASR incluye dos variantes de decodificadores, desde modelos ligeros de 300 millones de parámetros para dispositivos de bajo consumo hasta modelos de 7 mil millones que ofrecen alta precisión en diversas aplicaciones. El modelo base de reconocimiento de voz wav2vec 2.0, de propósito general, también está disponible en múltiples tamaños, permitiendo una amplia gama de tareas relacionadas con la voz más allá del ASR. Todos los modelos se ofrecen bajo una licencia Apache 2.0, y el conjunto de datos está disponible bajo CC-BY, permitiendo a investigadores, desarrolladores y defensores de idiomas adaptar y ampliar soluciones de voz usando el marco open-source fairseq2 de FAIR en el ecosistema PyTorch.
Omnilingual ASR se entrena con uno de los corpus de reconocimiento de voz más grandes y diversos en términos lingüísticos, combinando conjuntos de datos públicos con grabaciones aportadas por la comunidad. Para apoyar idiomas con presencia digital limitada, Meta AI colaboró con organizaciones locales para reclutar y compensar a hablantes nativos en regiones remotas o poco documentadas, creando el Corpus de Reconocimiento Automático de Voz Omnilingual, el conjunto de datos de reconocimiento espontáneo de recursos ultra bajos más grande hasta la fecha. Colaboraciones adicionales a través del Programa de Socios en Tecnología del Lenguaje reunieron a lingüistas, investigadores y comunidades lingüísticas de todo el mundo, incluyendo alianzas con Common Voice de Mozilla Foundation y Lanfrica/NaijaVoices. Estos esfuerzos aportaron una profunda comprensión lingüística y contexto cultural, asegurando que la tecnología satisfaga las necesidades locales y empodere a diversas comunidades lingüísticas a nivel global.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Meta AI presenta Omnilingual ASR, avanzando en el reconocimiento automático de voz en más de 1,600 idiomas
En Resumen
Meta AI ha lanzado el sistema de Reconocimiento Automático de Voz Omnilingüe, que proporciona reconocimiento de voz para más de 1,600 idiomas, y ha publicado modelos de código abierto y un corpus para 350 idiomas poco atendidos.
La división de investigación de la empresa tecnológica Meta, especializada en IA y realidad aumentada, Meta AI, anunció el lanzamiento del sistema Meta Omnilingual de Reconocimiento Automático de Voz (ASR).
Este conjunto de modelos ofrece reconocimiento de voz automático para más de 1,600 idiomas, logrando un rendimiento de alta calidad a una escala sin precedentes. Además, Meta AI está liberando como código abierto wav2vec 2.0 Omnilingual, un modelo de representación de voz multilingüe auto-supervisado con 7 mil millones de parámetros, diseñado para soportar una variedad de tareas de voz posteriores.
Junto con estas herramientas, la organización también lanza el Corpus de Reconocimiento Automático de Voz Omnilingual, una colección curada de transcripciones de voz de 350 idiomas poco atendidos, desarrollada en colaboración con socios globales.
El reconocimiento automático de voz ha avanzado en los últimos años, logrando una precisión casi perfecta en muchos idiomas ampliamente hablados. Sin embargo, ampliar la cobertura a idiomas con menos recursos ha sido un desafío debido a las altas demandas de datos y computación de las arquitecturas de IA existentes. El sistema Omnilingual ASR aborda esta limitación escalando el codificador de voz wav2vec 2.0 a 7 mil millones de parámetros, creando representaciones multilingües ricas a partir de voz cruda y sin transcribir. Dos variantes del decodificador convierten estas representaciones en tokens de caracteres: una usando clasificación temporal conexionista (CTC) y otra basada en transformadores, similar a los modelos de lenguaje grandes.
Este enfoque de ASR inspirado en LLM logra un rendimiento de vanguardia en más de 1,600 idiomas, con tasas de error de caracteres inferiores al 10% en el 78% de ellos, y presenta un método más flexible para agregar nuevos idiomas.
A diferencia de los sistemas tradicionales que requieren ajuste experto, Omnilingual ASR puede incorporar un idioma previamente no soportado usando solo unos pocos ejemplos combinados de audio y texto, permitiendo transcripciones sin necesidad de datos extensos, conocimientos especializados o hardware de alta gama. Aunque los resultados de cero disparos aún no igualan a los sistemas completamente entrenados, este método ofrece una forma escalable de integrar idiomas poco atendidos en el ecosistema digital.
Meta AI Avanzará en el Reconocimiento de Voz con la Suite y el Corpus Omnilingual ASR
La división de investigación ha lanzado una suite integral de modelos y un conjunto de datos diseñados para avanzar en la tecnología de voz para cualquier idioma. Basándose en investigaciones previas de FAIR, Omnilingual ASR incluye dos variantes de decodificadores, desde modelos ligeros de 300 millones de parámetros para dispositivos de bajo consumo hasta modelos de 7 mil millones que ofrecen alta precisión en diversas aplicaciones. El modelo base de reconocimiento de voz wav2vec 2.0, de propósito general, también está disponible en múltiples tamaños, permitiendo una amplia gama de tareas relacionadas con la voz más allá del ASR. Todos los modelos se ofrecen bajo una licencia Apache 2.0, y el conjunto de datos está disponible bajo CC-BY, permitiendo a investigadores, desarrolladores y defensores de idiomas adaptar y ampliar soluciones de voz usando el marco open-source fairseq2 de FAIR en el ecosistema PyTorch.
Omnilingual ASR se entrena con uno de los corpus de reconocimiento de voz más grandes y diversos en términos lingüísticos, combinando conjuntos de datos públicos con grabaciones aportadas por la comunidad. Para apoyar idiomas con presencia digital limitada, Meta AI colaboró con organizaciones locales para reclutar y compensar a hablantes nativos en regiones remotas o poco documentadas, creando el Corpus de Reconocimiento Automático de Voz Omnilingual, el conjunto de datos de reconocimiento espontáneo de recursos ultra bajos más grande hasta la fecha. Colaboraciones adicionales a través del Programa de Socios en Tecnología del Lenguaje reunieron a lingüistas, investigadores y comunidades lingüísticas de todo el mundo, incluyendo alianzas con Common Voice de Mozilla Foundation y Lanfrica/NaijaVoices. Estos esfuerzos aportaron una profunda comprensión lingüística y contexto cultural, asegurando que la tecnología satisfaga las necesidades locales y empodere a diversas comunidades lingüísticas a nivel global.