剛剛,Meta AI FAIR團隊發布了其在自動語音識別(ASR)領域的最新成果:Omnilingual ASR
這是一個模型套件,能為超過1600種語言提供自動語音識別能力,其規模和質量都達到了新的水平。
值得關注的是,該框架被設計為社區驅動,世界各地的人們只需提供少量自己的樣本,就能將Omnilingual ASR擴展到新的語言
同時開源的,還有一系列相關:
Omnilingual ASR Corpus:一個包含350種服務欠缺語言的轉錄語音的大型數據集
Omnilingual wav2vec 2.0:一個擴展到70億參數的、大規模多語言語音表征模型
語言探索Demo:一個可供人們探索模型所覆蓋語言的演示
目前,大多數ASR系統都集中在互聯網上資源豐富的一小部分語言上,這加劇了低資源語言使用者面臨的數字鴻溝
Meta FAIR團隊推出的Omnilingual ASR,旨在通過一個通用轉錄系統,讓高質量的語音轉文本技術能夠惠及代表性最不足的語言社區。其最終目標是打破語言障礙,實現跨語言和文化背景的交流