設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

字節(jié)跳動博士研制的“AI 音樂家”火了:可一鍵完美分離人聲和伴奏

量子位 2021/9/19 13:47:28 責(zé)編:玉笛

AI 可以寫歌、填詞、改換風(fēng)格、續(xù)寫音樂。今天,AI 又來做編曲人了。

上傳一段《Stay》,一鍵按下,伴奏和人聲就輕松分離。

人聲頗有種在空曠地帶清唱的清晰感,背景樂都能直接拿去做混剪了!

這樣驚人的效果也引發(fā)了 Reddit 熱議。

圖片

這項研究的主要負責(zé)人孔秋強來自字節(jié)跳動,全球最大的古典鋼琴數(shù)據(jù)集 GiantMIDI-Piano,也是由他在去年牽頭發(fā)布的。

那么今天,他又帶來了怎樣的一個 AI 音樂家呢?

一起來看看。

基于深度殘差網(wǎng)絡(luò)的音源分離

這是一個包含了相位估計的音樂源分離(MSS)系統(tǒng)。

首先,將幅值(Magnitude)與相位(Phase)解耦,用以估計復(fù)數(shù)理想比例掩碼(cIRM)。

其次,為了實現(xiàn)更靈活的幅值估計,將有界掩碼估計和直接幅值預(yù)測結(jié)合起來。

最后,為 MSS 系統(tǒng)引入一個 143 層的深度殘差網(wǎng)絡(luò)(Deep Residual UNets),利用殘差編碼塊(REB)和殘差解碼塊(RDB)來增加其深度:

殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊(ICB),以提高殘差網(wǎng)絡(luò)的表達能力。

其中每個殘差編碼塊由 4 個殘差卷積塊(RCB)組成,殘差卷積塊又由兩個核大小為 3×3 的卷積層組成。

每個殘差解碼塊由 8 個卷積層和 1 個反卷積層組成。

圖片

實驗結(jié)果

接下來,將這一系統(tǒng)在 MUSDB18 數(shù)據(jù)集上進行實驗。

MUSDB18 中的訓(xùn)練/驗證集分別包含 100/50 個完整的立體聲音軌,包括獨立的人聲、伴奏、低音、鼓和其他樂器。

在訓(xùn)練時,利用上述系統(tǒng)進行并行的混合音頻數(shù)據(jù)增強,隨機混合來自同一來源的兩個 3 秒片段,然后作為一個新的 3 秒片段進行訓(xùn)練。

以信號失真率(SDR)作為評判標準,可以看到 ResUNetDecouple 系統(tǒng)在分離人聲、低音、其他和伴奏方面明顯優(yōu)于以前的方法

在消融實驗中,143 層殘差網(wǎng)絡(luò)的表現(xiàn)也證實了,結(jié)合有界掩碼估計和直接幅值預(yù)測確實能夠改善聲音源分離系統(tǒng)的性能。

作者介紹

這項研究的論文一作為孔秋強,本碩都畢業(yè)于華南理工大學(xué),博士則畢業(yè)于英國薩里大學(xué)的電子信息工程專業(yè)。

他在 2019 年加入字節(jié)跳動的 Speech, Audio and Music Intelligence 研究小組,主要負責(zé)音頻信號處理和聲音事件檢測等領(lǐng)域的研究

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:字節(jié)跳動,AI音樂

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知