概要
Meta AIは、1600以上の言語に対応した音声認識システム「Omnilingual ASR」を発表し、オープンソースのモデルと350の十分に資源の少ない言語のコーパスを公開しました。
AIと拡張現実に特化したテクノロジー企業Metaの研究部門、Meta AIは、「Meta Omnilingual Automatic Speech Recognition(ASR)」システムのリリースを発表しました。
このモデル群は、1600以上の言語に対して自動音声認識を提供し、これまでにない規模で高品質な性能を実現しています。さらに、Meta AIは、7 billionパラメータを持つ自己教師ありの多言語音声表現モデル「wav2vec 2.0」のオープンソース化も進めており、多様な下流の音声タスクをサポートします。
これらのツールとともに、同組織は、グローバルな協力者と共同で開発した、350の資源不足言語の書き起こし音声を収集した「Omnilingual ASR Corpus」も公開しています。
近年、自動音声認識は多くの主要言語でほぼ完璧な精度を達成していますが、資源の少ない言語への対応は、データや計算資源の高い要求から依然として困難でした。Omnilingual ASRは、wav2vec 2.0の音声エンコーダを70億パラメータに拡大し、生の未書き起こし音声から豊かな多言語表現を生成します。二つのデコーダバリアントは、これらの表現を文字トークンに変換し、一つはコネクショニスト・テンポラル・クラシフィケーション(CTC)、もう一つは大規模言語モデルに似たトランスフォーマーを用いています。
このLLMに触発されたASRアプローチは、1600以上の言語で最先端の性能を達成し、そのうち78%の言語で文字誤り率が10%未満となっています。また、新たな言語を追加するための柔軟な方法も導入しています。
従来のシステムは専門家による微調整が必要でしたが、Omnilingual ASRは、少数の音声とテキストのペア例だけで未対応の言語を取り込むことが可能で、広範なデータや専門知識、高性能な計算資源を必要としません。ゼロショットの結果はまだ完全なシステムには及びませんが、資源の少ない言語をデジタルエコシステムに取り込むためのスケーラブルな方法を提供します。
研究部門は、あらゆる言語の音声技術を進化させるための包括的なモデル群とデータセットを公開しました。FAIRの以前の研究を基に、Omnilingual ASRには、低消費電力デバイス向けの軽量モデル(300M)から高精度の7Bモデルまで、二つのデコーダバリアントが含まれています。汎用性の高いwav2vec 2.0の音声基盤モデルも複数のサイズで提供されており、ASR以外の音声関連タスクにも対応可能です。すべてのモデルはApache 2.0ライセンスの下で提供されており、データセットはCC-BYライセンスのもとで公開されているため、研究者や開発者、言語支援者はFAIRのオープンソースフレームワーク「fairseq2」を用いて、音声ソリューションを適応・拡張できます。
Omnilingual ASRは、公開されているデータセットとコミュニティから収集した録音を組み合わせた、これまでで最大かつ最も多言語に対応したASRコーパスの一つで訓練されています。デジタル化が限定的な言語を支援するため、Meta AIは現地の組織と提携し、遠隔地や資料不足の地域のネイティブスピーカーを募集・報酬を提供し、「Omnilingual ASR Corpus」を作成しました。これは、超低資源の自発的なASRデータセットとしては最大規模です。さらに、Mozilla Foundationの「Common Voice」や「Lanfrica/NaijaVoices」といったパートナーシップを通じて、言語学者や研究者、言語コミュニティと連携し、深い言語的洞察と文化的背景を取り入れることで、地域のニーズに応えつつ、多様な言語コミュニティを支援しています。
11.8K 人気度
89.04K 人気度
17K 人気度
19.3K 人気度
7.61K 人気度
Meta AI、Omnilingual ASRを導入、1600以上の言語での自動音声認識を進化させる
概要
Meta AIは、1600以上の言語に対応した音声認識システム「Omnilingual ASR」を発表し、オープンソースのモデルと350の十分に資源の少ない言語のコーパスを公開しました。
AIと拡張現実に特化したテクノロジー企業Metaの研究部門、Meta AIは、「Meta Omnilingual Automatic Speech Recognition(ASR)」システムのリリースを発表しました。
このモデル群は、1600以上の言語に対して自動音声認識を提供し、これまでにない規模で高品質な性能を実現しています。さらに、Meta AIは、7 billionパラメータを持つ自己教師ありの多言語音声表現モデル「wav2vec 2.0」のオープンソース化も進めており、多様な下流の音声タスクをサポートします。
これらのツールとともに、同組織は、グローバルな協力者と共同で開発した、350の資源不足言語の書き起こし音声を収集した「Omnilingual ASR Corpus」も公開しています。
近年、自動音声認識は多くの主要言語でほぼ完璧な精度を達成していますが、資源の少ない言語への対応は、データや計算資源の高い要求から依然として困難でした。Omnilingual ASRは、wav2vec 2.0の音声エンコーダを70億パラメータに拡大し、生の未書き起こし音声から豊かな多言語表現を生成します。二つのデコーダバリアントは、これらの表現を文字トークンに変換し、一つはコネクショニスト・テンポラル・クラシフィケーション(CTC)、もう一つは大規模言語モデルに似たトランスフォーマーを用いています。
このLLMに触発されたASRアプローチは、1600以上の言語で最先端の性能を達成し、そのうち78%の言語で文字誤り率が10%未満となっています。また、新たな言語を追加するための柔軟な方法も導入しています。
従来のシステムは専門家による微調整が必要でしたが、Omnilingual ASRは、少数の音声とテキストのペア例だけで未対応の言語を取り込むことが可能で、広範なデータや専門知識、高性能な計算資源を必要としません。ゼロショットの結果はまだ完全なシステムには及びませんが、資源の少ない言語をデジタルエコシステムに取り込むためのスケーラブルな方法を提供します。
Meta AI、Omnilingual ASRスイートとコーパスで音声認識を進化
研究部門は、あらゆる言語の音声技術を進化させるための包括的なモデル群とデータセットを公開しました。FAIRの以前の研究を基に、Omnilingual ASRには、低消費電力デバイス向けの軽量モデル(300M)から高精度の7Bモデルまで、二つのデコーダバリアントが含まれています。汎用性の高いwav2vec 2.0の音声基盤モデルも複数のサイズで提供されており、ASR以外の音声関連タスクにも対応可能です。すべてのモデルはApache 2.0ライセンスの下で提供されており、データセットはCC-BYライセンスのもとで公開されているため、研究者や開発者、言語支援者はFAIRのオープンソースフレームワーク「fairseq2」を用いて、音声ソリューションを適応・拡張できます。
Omnilingual ASRは、公開されているデータセットとコミュニティから収集した録音を組み合わせた、これまでで最大かつ最も多言語に対応したASRコーパスの一つで訓練されています。デジタル化が限定的な言語を支援するため、Meta AIは現地の組織と提携し、遠隔地や資料不足の地域のネイティブスピーカーを募集・報酬を提供し、「Omnilingual ASR Corpus」を作成しました。これは、超低資源の自発的なASRデータセットとしては最大規模です。さらに、Mozilla Foundationの「Common Voice」や「Lanfrica/NaijaVoices」といったパートナーシップを通じて、言語学者や研究者、言語コミュニティと連携し、深い言語的洞察と文化的背景を取り入れることで、地域のニーズに応えつつ、多様な言語コミュニティを支援しています。