Facebook AI,更準(zhǔn)確地說是 Meta AI,剛剛發(fā)布了自監(jiān)督語音處理模型 XLS-R,共支持 128 種語言。
這項(xiàng)技術(shù)與 Meta 公司最新“元宇宙”愿景緊密相關(guān)。
相互交談是人們互動(dòng)的一種自然方式,隨著語音技術(shù)的發(fā)展,未來的虛擬世界可以使用我們技術(shù)進(jìn)行互動(dòng),虛擬體驗(yàn)將與物理世界融為一體。
說人話,就是讓母語不同的人在元宇宙里社交:一位說著英語,一位說著漢語,兩人可以靠 XLS-R 在元宇宙中無障礙對(duì)話。
實(shí)際效果如何呢?
MetaAI 在 HuggingFace 上發(fā)布了試用版語音直譯模型,支持從 22 種語言轉(zhuǎn)換到 16 種語言,我們先來試試它的英譯中效果。
(雖然翻譯腔較濃,但仍算準(zhǔn)確,7 秒鐘的句子完成翻譯僅 1.53 秒)
我們知道,世界上的語言有上千種,要用 AI 實(shí)現(xiàn)這些語言的互通并非易事。
一般語料庫的豐富程度決定了語言翻譯模型的質(zhì)量,語音翻譯一般集中于幾個(gè)資源多大語種之間。但是由于小語種往往語料匱乏,使用這類母語的人往往很難獲得較高的 AI 翻譯質(zhì)量。
XLS-R 通過自監(jiān)督技術(shù)對(duì) 10 倍的語音數(shù)據(jù)進(jìn)行訓(xùn)練,大大改善了以前的多語言模型,尤其是小語種的處理。
XLS-R 的原理
XLS-R 基于 Facebook 去年發(fā)布的 wav2vec 2.0 技術(shù)。
wav2vec 2.0 與 BERT 類似,是通過預(yù)測(cè)音頻 mask 部分的語音單元來訓(xùn)練的。它們的區(qū)別是,語音音頻是一種連續(xù)的信號(hào),不能輕易清晰地分割成單詞或其他單位。
wav2vec 2.0 通過學(xué)習(xí) 25 毫秒長(zhǎng)的基本單元來解決這個(gè)問題,以便能夠?qū)W習(xí)高級(jí)上下文表示。
在僅擁有一小時(shí)的標(biāo)記訓(xùn)練數(shù)據(jù)的情況下,wav2vec 2.0 能通過后續(xù)無監(jiān)督的訓(xùn)練數(shù)據(jù),在 LibreSpeech 測(cè)試基準(zhǔn)的 100 小時(shí)子集上達(dá)到 SOTA 水平。
之后,F(xiàn)acebook 又推出了完全無監(jiān)督的高性能語音識(shí)別模型 wav2vec-U,它純粹從錄制的語音音頻和未配對(duì)的文本中學(xué)習(xí)。
為了 wav2vec-U 讓學(xué)習(xí)識(shí)別音頻錄音中的單詞,F(xiàn)acebook 訓(xùn)練了一個(gè) GAN。生成器根據(jù)嵌入在自監(jiān)督表示中的每個(gè)音頻段,預(yù)測(cè)與語言中的聲音對(duì)應(yīng)的音素。
而鑒別器負(fù)責(zé)評(píng)估預(yù)測(cè)的音素序列是否真實(shí)。最初,轉(zhuǎn)錄非常糟糕,但隨著時(shí)間的推移,隨著鑒別器的反饋,轉(zhuǎn)錄變得準(zhǔn)確。
通過這種方式,它學(xué)會(huì)了區(qū)分生成器的語音識(shí)別輸出和真實(shí)文本。
Facebook 在此基礎(chǔ)上推出了包含 53 種語言的 XLSR。
而最新發(fā)布的 XLS-R 有 128 種語言之多,語種數(shù)量是 XLSR 的兩倍多,數(shù)據(jù)量更是后者 10 倍 —— 共計(jì)長(zhǎng)達(dá) 43.6 萬小時(shí)的語音。
XLS-R 共有 20 億參數(shù),它在測(cè)試的 37 種語言中,表現(xiàn)優(yōu)于大多數(shù)語種先前的工作。甚至在老撾語等小語種識(shí)別上,也能低于之前的錯(cuò)誤率。
此外 XLS-R 也讓低資源語言與英語之間的翻譯大幅改進(jìn),例如從印度尼西亞語到英語的翻譯,其中 BLEU(雙語互譯質(zhì)量評(píng)估)的準(zhǔn)確性平均翻了一番。
CoVoST-2 語音翻譯基準(zhǔn)測(cè)試中,XLS-R 在 21 個(gè)英語翻譯方向上比之前技術(shù)平均提高了 7.4 BLEU。
從下圖中可以看出,XLS-R 對(duì)低資源語種的提升尤為明顯。
微調(diào) XLS-R
XLS-R 只是一個(gè)預(yù)訓(xùn)練模型,為了能更好的服務(wù)于具體任務(wù),還需要對(duì)模型進(jìn)行微調(diào)。
Hugging Face 官方提供了詳細(xì)的微調(diào)教程。
此外官方還提供不同參數(shù)規(guī)模的語音識(shí)別模型,以及 15 種語言與英語之間的互譯模型,供用戶下載。
傳送門
官方博客:
https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/
GitHub 頁:
https://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr
論文地址:
https://arxiv.org/abs/2111.09296v1
試用網(wǎng)頁地址:
https://huggingface.co/spaces/facebook/XLS-R-2B-22-16
微調(diào)方法簡(jiǎn)介:
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。