微軟展示 Rumi 項目，通過多模方式提高 AI 理解能力

2023/8/5 11:01:24 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 8 月 5 日消息，微軟研究院近日展示了 Project Rumi 項目，結(jié)合文本，音頻和視頻數(shù)據(jù)，通過多模方法，提高人工智能系統(tǒng)的理解能力，從而更能理解人類的意圖。

人工智能系統(tǒng)近年來取得了長足的進步，尤其在自然語言處理（NLP）領(lǐng)域的成長更為驚人。不過現(xiàn)有 NLP AI 主要依賴于文本輸入輸出，忽略了人類在自然交流中的語調(diào)，面部表情，手勢和肢體語言等線索，從而在理解方面會存在偏差。

在 AI 專業(yè)術(shù)語中，這些線索統(tǒng)稱為副語言（paralinguistics/ paralanguage）。

微軟研究院為了解決這個問題，開發(fā)了 Project Rumi，這是一個新穎的框架，旨在通過多模態(tài)副語言提示來增強人工智能的理解。該項目包括兩個主要部分：多模式副語言編碼器和多模式副語言解碼器。IT之家在此附上視頻如下：

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章