Meta 開源 AI 語(yǔ)言模型 MusicGen，可將文本和旋律轉(zhuǎn)化為完整樂(lè)曲

2023/6/12 11:34:19 來(lái)源：IT之家作者：江程（實(shí)習(xí)） 責(zé)編：汪淼

評(píng)論：

IT之家 6 月 12 日消息，Meta 近日在 Github 上開源了其 AI 語(yǔ)言模型 MusicGen，該模型基于谷歌 2017 年推出的 Transformer 模型。如同模型名稱所示，MusicGen 主要用于音樂(lè)生成，它可以將文本和已有的旋律轉(zhuǎn)化為完整樂(lè)曲。

研發(fā)團(tuán)隊(duì)表示：“我們使用了 20000 小時(shí)的授權(quán)音樂(lè)來(lái)對(duì)訓(xùn)練該模型，并采用 Meta 的 EnCodec 編碼器將音頻數(shù)據(jù)分解為更小的單元進(jìn)行并行處理，進(jìn)而讓 MusicGen 的運(yùn)算效率和生成速度都比同類型 AI 模型更為出色?！?/p>

除此之外，MusicGen 還支持文本與旋律的組合輸入，例如你可以提出生成“一首輕快的曲目”并同時(shí)要求“將它與貝多芬的《歡樂(lè)頌》結(jié)合起來(lái)”。

研發(fā)團(tuán)隊(duì)還對(duì) MusicGen 的實(shí)際表現(xiàn)進(jìn)行了測(cè)試。結(jié)果顯示，與谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音樂(lè)模型相比，MusicGen 在測(cè)試音樂(lè)與文本提示的匹配度以及作曲的可信度等指標(biāo)上表現(xiàn)更好，總體而言略高于谷歌 MusicLM 的水平。

Meta 已允許該模型的商業(yè)使用，并在 Huggingface 上發(fā)布了一個(gè)供演示用的網(wǎng)頁(yè)應(yīng)用。

IT之家附上模型地址：點(diǎn)此前往

演示應(yīng)用地址：點(diǎn)此前往

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Meta 開源 AI 語(yǔ)言模型 MusicGen，可將文本和旋律轉(zhuǎn)化為完整樂(lè)曲

相關(guān)文章