設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里云宣布自研 EMO 模型上線通義 App,用照片 + 音頻生成唱歌視頻

2024/4/25 17:58:04 來(lái)源:IT之家 作者:問(wèn)舟 責(zé)編:問(wèn)舟

IT之家 4 月 25 日消息,EMO(Emote Portrait Alive)是一個(gè)由阿里巴巴集團(tuán)智能計(jì)算研究院開發(fā)的框架,一個(gè)音頻驅(qū)動(dòng)的 AI 肖像視頻生成系統(tǒng),能夠通過(guò)輸入單一的參考圖像和語(yǔ)音音頻,生成具有表現(xiàn)力的面部表情和各種頭部姿勢(shì)的視頻。

阿里云今日宣布,通義實(shí)驗(yàn)室研發(fā)的 AI 模型 ——EMO 正式上線通義 App,并開放給所有用戶免費(fèi)使用。借助這一功能,用戶可以在歌曲、熱梗、表情包中任選一款模板,然后通過(guò)上傳一張肖像照片就能讓 EMO 合成演戲唱歌視頻。

據(jù)介紹,通義 App 首批上線了 80 多個(gè) EMO 模板,包括熱門歌曲《上春山》《野狼 Disco》等,還有網(wǎng)絡(luò)熱?!袄徖忞u”“回手掏”等,但目前暫未開放自定義音頻。

IT之家附 EMO 官網(wǎng)入口:

EMO 的主要特點(diǎn)

  • 音頻驅(qū)動(dòng)的視頻生成:EMO 能夠根據(jù)輸入的音頻(如說(shuō)話或唱歌)直接生成視頻,無(wú)需依賴于預(yù)先錄制的視頻片段或 3D 面部模型。

  • 高表現(xiàn)力和逼真度:EMO 生成的視頻具有高度的表現(xiàn)力,能夠捕捉并再現(xiàn)人類面部表情的細(xì)微差別,包括微妙的微表情,以及與音頻節(jié)奏相匹配的頭部運(yùn)動(dòng)。

  • 無(wú)縫幀過(guò)渡:EMO 確保視頻幀之間的過(guò)渡自然流暢,避免了面部扭曲或幀間抖動(dòng)的問(wèn)題,從而提高了視頻的整體質(zhì)量。

  • 身份保持:通過(guò) FrameEncoding 模塊,EMO 能夠在視頻生成過(guò)程中保持角色身份的一致性,確保角色的外觀與輸入的參考圖像保持一致。

  • 穩(wěn)定的控制機(jī)制:EMO 采用了速度控制器和面部區(qū)域控制器等穩(wěn)定控制機(jī)制,以增強(qiáng)視頻生成過(guò)程中的穩(wěn)定性,避免視頻崩潰等問(wèn)題。

  • 靈活的視頻時(shí)長(zhǎng):EMO 可以根據(jù)輸入音頻的長(zhǎng)度生成任意時(shí)長(zhǎng)的視頻,為用戶提供了靈活的創(chuàng)作空間。

  • 跨語(yǔ)言和跨風(fēng)格:EMO 的訓(xùn)練數(shù)據(jù)集涵蓋了多種語(yǔ)言和風(fēng)格,包括中文和英文,以及現(xiàn)實(shí)主義、動(dòng)漫和 3D 風(fēng)格,這使得 EMO 能夠適應(yīng)不同的文化和藝術(shù)風(fēng)格。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里巴巴

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知