聽(tīng)一遍曲子,就能知道樂(lè)譜,還能馬上演奏,而且還掌握“十八般樂(lè)器”,鋼琴、小提琴、吉他等都不在話下。這就不是人類音樂(lè)大師,而是谷歌推出的“多任務(wù)多音軌”音樂(lè)轉(zhuǎn)音符模型 MT3。
首先需要解釋一下什么是多任務(wù)多音軌。通常一首曲子是有多種樂(lè)器合奏而來(lái),每個(gè)樂(lè)曲就是一個(gè)音軌,而多任務(wù)就是同時(shí)將不同音軌的樂(lè)譜同時(shí)還原出來(lái)。
事實(shí)上,谷歌 MT3 在還原多音軌樂(lè)譜這件事上,達(dá)到了 SOTA 的結(jié)果。谷歌已將該論文投給 ICLR 2022。
還原多音軌樂(lè)譜
相比與自動(dòng)語(yǔ)音識(shí)別 (ASR) ,自動(dòng)音樂(lè)轉(zhuǎn)錄 (AMT) 的難度要大得多,因?yàn)楹笳呒纫瑫r(shí)轉(zhuǎn)錄多個(gè)樂(lè)器,還要保留精細(xì)的音高和時(shí)間信息。
多音軌的自動(dòng)音樂(lè)轉(zhuǎn)錄數(shù)據(jù)集更是“低資源”的?,F(xiàn)有的開(kāi)源音樂(lè)轉(zhuǎn)錄數(shù)據(jù)集一般只包含一到幾百小時(shí)的音頻,相比語(yǔ)音數(shù)據(jù)集動(dòng)輒幾千上萬(wàn)小時(shí)的市場(chǎng),算是很少了。
先前的音樂(lè)轉(zhuǎn)錄主要集中在特定于任務(wù)的架構(gòu)上,針對(duì)每個(gè)任務(wù)的各種樂(lè)器量身定制。因此,作者受到低資源 NLP 任務(wù)遷移學(xué)習(xí)的啟發(fā),證明了通用 Transformer 模型可以執(zhí)行多任務(wù) AMT,并顯著提高了低資源樂(lè)器的性能。作者使用單一的通用 Transformer 架構(gòu) T5,而且是 T5“小”模型,其中包含大約 6000 萬(wàn)個(gè)參數(shù)。
該模型在編碼器和解碼器中使用了一系列標(biāo)準(zhǔn)的 Transformer 自注意力“塊”。為了產(chǎn)生輸出標(biāo)記序列,該模型使用貪婪自回歸解碼:輸入一個(gè)輸入序列,將預(yù)測(cè)出下一個(gè)出現(xiàn)概率最高的輸出標(biāo)記附加到該序列中,并重復(fù)該過(guò)程直到結(jié)束。
MT3 使用梅爾頻譜圖作為輸入。對(duì)于輸出,作者構(gòu)建了一個(gè)受 MIDI 規(guī)范啟發(fā)的 token 詞匯,稱為“類 MIDI”。
生成的樂(lè)譜通過(guò)開(kāi)源軟件 FluidSynth 渲染成音頻。此外,還要解決不同樂(lè)曲數(shù)據(jù)集不平衡和架構(gòu)不同問(wèn)題。
作者定義的通用輸出 token 還允許模型同時(shí)在多個(gè)數(shù)據(jù)集的混合上進(jìn)行訓(xùn)練,類似于用多語(yǔ)言翻譯模型同時(shí)訓(xùn)練幾種語(yǔ)言。這種方法不僅簡(jiǎn)化了模型設(shè)計(jì)和訓(xùn)練,而且增加了模型可用訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。
實(shí)際效果
在所有指標(biāo)和所有數(shù)據(jù)集上,MT3 始終優(yōu)于基線。訓(xùn)練期間的數(shù)據(jù)集混合,相比單個(gè)數(shù)據(jù)集訓(xùn)練有很大的性能提升,特別是對(duì)于 GuitarSet、MusicNet 和 URMP 等“低資源”數(shù)據(jù)集。
最近,谷歌團(tuán)隊(duì)也放出了 MT3 的源代碼,并在 Hugging Face 上放出了試玩 Demo。
不過(guò)由于轉(zhuǎn)換音頻需要 GPU 資源,在 Hugging Face 上,建議各位將在 Colab 上運(yùn)行 Jupyter Notebook。
論文地址:
https://arxiv.org/abs/2111.03017
源代碼:
https://github.com/magenta/mt3
Demo 地址:
https://huggingface.co/spaces/akhaliq/MT3
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。