笑不活,最新虛擬試穿神器被網(wǎng)友們玩壞了。黃院士、馬斯克、阿爾特曼、史密斯等一眾大佬衣服集體被扒。
前有老黃卸下皮衣套上糖果包裝袋:
后有阿爾特曼大秀花臂穿 GUCCI:
再有老馬變成了蛛蛛俠:
好萊塢巨星史密斯也風(fēng)格大變:
但說回研究本身,確實(shí)正兒八經(jīng)的研究。
名為 IDM–VTON,由來自韓國科學(xué)技術(shù)院和 OMNIOUS.AI 公司的研究團(tuán)隊(duì)基于擴(kuò)散模型打造。
目前官方放出了 demo,大伙兒可以試玩,推理代碼已開源。
除了開頭所展示的,抱抱臉研究員也玩得不亦樂乎,給老黃換上了專屬戰(zhàn)袍。其 CEO 連忙轉(zhuǎn)發(fā)打趣:
我被替代了,沒法和他爭(zhēng) CEO。
看熱鬧的網(wǎng)友也是感慨,經(jīng)過這么多年,終于不用再擔(dān)心自己“手殘”了(AI 幫你搞定)。
來玩啊~
我們也趕緊上手體驗(yàn)了一把。demo 整個(gè)頁面是這樣的:
操作起來也是非常簡(jiǎn)單。
首先上傳人物圖,可以手動(dòng)或者自動(dòng)選擇要修改的區(qū)域。然后,上傳要換的衣服。
直接點(diǎn)擊 Try-on,會(huì)自動(dòng)生成掩模圖和換裝后的圖:
上面這張自動(dòng)生成的掩模把手也選進(jìn)去了,所以最后生成的左手效果不好。
我們手動(dòng)選取涂抹一下,同時(shí)人和衣服全部都用我們自己的圖。
這次效果大伙兒覺得如何?
再來展示一波網(wǎng)友的試玩成品圖。DeepMind 聯(lián)合創(chuàng)始人蘇萊曼穿上了微笑面具修格斯聯(lián)名款 T 恤:
甚至不少網(wǎng)友真想要這件衣服。
阿爾特曼再次被網(wǎng)友當(dāng)成模特:
當(dāng)然也有翻車的時(shí)候,比如馬斯克穿的就是山寨 CUCCI。
看完效果后,接著來看 IDM–VTON 在技術(shù)上是如何實(shí)現(xiàn)的。
基于擴(kuò)散模型
技術(shù)方面,IDM–VTON 基于擴(kuò)散模型,通過設(shè)計(jì)精細(xì)的注意力模塊來提高服裝圖像的一致性,并生成真實(shí)的虛擬試穿圖像。
模型架構(gòu)大概包含三部分:
TryonNet:主 UNet,處理人物圖像。
IP-Adapter:圖像提示適配器,編碼服裝圖像的高級(jí)語義。
GarmentNet:并行 UNet,提取服裝的低級(jí)特征。
在為 UNet 提供輸入時(shí),研究人員將人物圖片的含噪聲潛在特征、分割掩模、帶掩蔽的圖片和 Densepose 數(shù)據(jù)整合在一起。
他們還會(huì)為服裝添加詳細(xì)描述,例如 [V] 表示“短袖圓領(lǐng) T 恤”。這個(gè)描述隨后用作 GarmentNet(例如,“一張 [V] 的照片”)和 TryonNet(例如,“模特正在穿 [V]”)的輸入提示。
TryonNet 和 GarmentNet 產(chǎn)生的中間特征進(jìn)行了合并,隨后傳遞至自我注意力層。研究人員只使用了來自 TryonNet 的輸出的前半部分。這些輸出與文本編碼器和 IP-Adapter 的特征一起,通過交叉注意力層進(jìn)行融合。
最終,研究人員對(duì) TryonNet 和 IP-Adapter 模塊進(jìn)行了精細(xì)調(diào)整,并鎖定了模型的其它部分。
實(shí)驗(yàn)階段,他們使用 VITON-HD 數(shù)據(jù)集訓(xùn)練模型,并在 VITON-HD、DressCode 和內(nèi)部收集的 In-the-Wild 數(shù)據(jù)集上進(jìn)行評(píng)估。
IDM–VTON 在定性和定量上都優(yōu)于先前的方法。
IDM-VTON 可以生成真實(shí)的圖像并保留服裝的細(xì)粒度細(xì)節(jié)。
更多細(xì)節(jié),感興趣的家人們可以查看原論文。
項(xiàng)目鏈接:
[1]https://idm-vton.github.io/?continueFlag=589fb545dbbb123446456b65a635d849
[2]https://arxiv.org/abs/2403.05139
[3]https://huggingface.co/spaces/yisol/IDM-VTON?continueFlag=589fb545dbbb123446456b65a635d849
參考鏈接:
[1]https://twitter.com/multimodalart/status/1782508538213933192
[2]https://twitter.com/fffiloni/status/1783158082849108434
[3]https://twitter.com/ClementDelangue/status/1783179067803533577
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:西風(fēng)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。