IT之家 6 月 12 日消息,Meta 近日在 Github 上開源了其 AI 語言模型 MusicGen,該模型基于谷歌 2017 年推出的 Transformer 模型。如同模型名稱所示,MusicGen 主要用于音樂生成,它可以將文本和已有的旋律轉(zhuǎn)化為完整樂曲。
研發(fā)團隊表示:“我們使用了 20000 小時的授權(quán)音樂來對訓(xùn)練該模型,并采用 Meta 的 EnCodec 編碼器將音頻數(shù)據(jù)分解為更小的單元進行并行處理,進而讓 MusicGen 的運算效率和生成速度都比同類型 AI 模型更為出色?!?/p>
除此之外,MusicGen 還支持文本與旋律的組合輸入,例如你可以提出生成“一首輕快的曲目”并同時要求“將它與貝多芬的《歡樂頌》結(jié)合起來”。
研發(fā)團隊還對 MusicGen 的實際表現(xiàn)進行了測試。結(jié)果顯示,與谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音樂模型相比,MusicGen 在測試音樂與文本提示的匹配度以及作曲的可信度等指標上表現(xiàn)更好,總體而言略高于谷歌 MusicLM 的水平。
Meta 已允許該模型的商業(yè)使用,并在 Huggingface 上發(fā)布了一個供演示用的網(wǎng)頁應(yīng)用。
IT之家附上模型地址:點此前往
演示應(yīng)用地址:點此前往
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。