谷歌最新模型 AI 一鍵試衣,細(xì)節(jié)不變姿勢(shì)隨意換

新智元 2023/6/20 12:48:14 責(zé)編:夢(mèng)澤

谷歌的新 AI 模型,直接解決了 AI 換裝的兩大難題 —— 既保留衣服細(xì)節(jié),又能隨意換姿勢(shì)。以后再剁手,恐怕要更容易了!

一鍵換裝,被谷歌給實(shí)現(xiàn)了!

這個(gè) AI 試衣模型 TryOnDiffusion,你只要給它一張自己的全身照,和服裝模特的照片,就能知道自己穿上這件衣服之后是什么樣子了。

主打的就是一個(gè)真實(shí)。所以,是真人版奇跡暖暖吧?

按說(shuō),各種換裝的 AI 早就有不少了,谷歌的這個(gè) AI 模型究竟有何突破呢?

項(xiàng)目地址:https://tryondiffusion.github.io/

關(guān)鍵就在于,他們提出了一種基于擴(kuò)散的框架,把兩個(gè) Parallel-Unet 統(tǒng)一了起來(lái)。

在以前,這種模型的關(guān)鍵挑戰(zhàn)就在于,如何既保留衣服細(xì)節(jié),又能將衣服變形,同時(shí)還能適應(yīng)不同主體的姿勢(shì)和形狀,讓人感覺(jué)不違和。

以前的方法無(wú)法同時(shí)做到這兩點(diǎn),要么只能保留衣服細(xì)節(jié),但無(wú)法處理姿勢(shì)和形狀的變化,要么就是可以換姿勢(shì),但服裝細(xì)節(jié)會(huì)缺失。

而 TryOnDiffusion 因?yàn)榻y(tǒng)一了兩個(gè) UNet,就能夠在單個(gè)網(wǎng)絡(luò)中保留衣服細(xì)節(jié),并且對(duì)衣服進(jìn)行重要的姿勢(shì)和身體變化。

可以看到,衣服在人物上的變形極其自然,并且衣服的細(xì)節(jié)也還原得非常到位。

話不多說(shuō),讓我們直接看看,谷歌的這個(gè)「AI 試穿」到底有多厲害!

用 AI 生成試穿圖像

具體來(lái)說(shuō),Virtual Try-On(VTO)可以向顧客展示衣服在不同體型和尺寸的真實(shí)模特身上的效果。

虛擬服裝試穿中,有許多微妙但對(duì)于來(lái)說(shuō)至關(guān)重要的細(xì)節(jié),比如衣服的垂墜、折疊、緊貼、伸展和起皺的效果。

此前已有的技術(shù),比如 geometric warping(幾何變形),可以對(duì)服裝圖像進(jìn)行剪切和粘貼,然后對(duì)其進(jìn)行變形以適配身體的輪廓。

但這些功能,很難讓衣服妥帖地適應(yīng)身體,并且會(huì)存在一些視覺(jué)缺陷,比如錯(cuò)位的褶皺,會(huì)讓衣服看起來(lái)畸形和不自然。

因此,谷歌的研究者致力于從頭開(kāi)始生成服裝的每個(gè)像素,以生成高質(zhì)量、逼真的圖像。

他們采用的技術(shù)是一種全新的基于 Diffusion 的 AI 模型,TryOnDiffusion。

擴(kuò)散是逐漸向圖像添加額外像素(或「噪聲」),直到它變得無(wú)法識(shí)別,然后完全消除噪聲,直到原始圖像以完美的質(zhì)量重建。

像 Imagen 這樣的文本到圖像模型,就是使用的來(lái)自大語(yǔ)言模型 LLM 的擴(kuò)散加文本,可以?xún)H根據(jù)輸入的文本,就能生成逼真的圖像。

Diffusion 是逐漸向圖像添加額外像素(或「噪聲」),直到它變得無(wú)法識(shí)別,然后再完全消除噪聲,直到原始圖像以完美的質(zhì)量重建。

在 TryOnDiffusion 中,不需要使用文字,而是使用一組成對(duì)的圖片:一張圖片是衣服(或者穿著衣服的模特),一張圖片是模特。

每張圖片都會(huì)被發(fā)送到自己的神經(jīng)網(wǎng)絡(luò)(U-net),并通過(guò)被稱(chēng)為「交叉注意力」的過(guò)程來(lái)相互共享信息,輸出新的穿著這件衣服的模特的逼真圖像。

這種基于圖像的 Diffusion 和交叉注意力的結(jié)合技術(shù),構(gòu)成了這個(gè) AI 模型的核心。

VOT 功能讓用戶(hù)可以在符合自己身材的模特身上渲染展示上衣效果。

海量高質(zhì)量數(shù)據(jù)訓(xùn)練

谷歌為了使 VTO 功能盡可能提供真實(shí)的效果并且真的能幫助用戶(hù)挑選衣服,對(duì)這個(gè) AI 模型進(jìn)行了大量的訓(xùn)練。

但是,谷歌沒(méi)有使用大語(yǔ)言模型來(lái)訓(xùn)練它,而是利用了谷歌的購(gòu)物圖。

這個(gè)數(shù)據(jù)集擁有全世界最全面,同時(shí)也是最新的產(chǎn)品、賣(mài)家、品牌、評(píng)論和庫(kù)存數(shù)據(jù)。

谷歌使用了多對(duì)圖像訓(xùn)練模型,每對(duì)圖像由兩種不同姿勢(shì)的穿著衣服的模特圖組成。

比如,一個(gè)穿著襯衫的人側(cè)身站立的圖像和另一個(gè)向前站立的圖像。

谷歌專(zhuān)門(mén)的擴(kuò)散模型將圖像輸入到他們自己的神經(jīng)網(wǎng)絡(luò)(U-net)來(lái)生成輸出:穿著這件衣服的模特的逼真圖像。

在這對(duì)訓(xùn)練圖像中,模型學(xué)習(xí)將側(cè)身姿勢(shì)的襯衫形狀與面朝前姿勢(shì)的圖相匹配。

反過(guò)來(lái)也一樣,直到它可以從各個(gè)角度生成該人穿著襯衫的逼真圖像。

為了追求更好的效果,谷歌使用數(shù)百萬(wàn)不同服裝和人物的隨機(jī)圖像對(duì)多次重復(fù)了這個(gè)過(guò)程。

結(jié)果就是我們?cè)谖恼麻_(kāi)頭的圖片呈現(xiàn)出來(lái)的效果。

總之,TryOnDiffusion 既保留了衣服的細(xì)節(jié)效果,也適配了新模特的身材和姿勢(shì),谷歌的技術(shù)做到了二者兼得,效果相當(dāng)逼真。

技術(shù)細(xì)節(jié)

在一張展示一個(gè)模特的身體的圖片,另一張展示另一個(gè)穿著某件衣服的模特的圖片的條件下,TryOnDiffusion 的目標(biāo)是生成一個(gè)展示這件服裝在這個(gè)人身上可能會(huì)呈現(xiàn)的具體的視覺(jué)效果。

解決這個(gè)問(wèn)題最關(guān)鍵的難點(diǎn)在于,保持服裝細(xì)節(jié)逼真的同時(shí),將服裝進(jìn)行適當(dāng)?shù)淖冃我赃m應(yīng)不同模特之間的姿勢(shì)和體型的變化。

先前的方法要么著重于保留服裝細(xì)節(jié),但無(wú)法有效處理姿勢(shì)和形狀的變化。

要么允許根據(jù)期望的體型和姿勢(shì)呈現(xiàn)出了試穿效果,但缺乏服裝的細(xì)節(jié)。

谷歌提出了一種基于 Diffusion 的架構(gòu),將兩個(gè) UNet(稱(chēng)為 Parallel-UNet)合二為一,谷歌能夠在單個(gè)網(wǎng)絡(luò)中保留服裝細(xì)節(jié)并對(duì)服裝的試穿效果進(jìn)行明顯的姿勢(shì)和身體變化。

Parallel-UNet 的關(guān)鍵思想包括:

1)通過(guò)交叉注意機(jī)制隱式地為服裝制作褶皺;

2)服裝的褶皺和人物的融合作為一個(gè)統(tǒng)一的過(guò)程,而不是兩個(gè)獨(dú)立任務(wù)的序列。

實(shí)驗(yàn)結(jié)果表明,TryOnDiffusion 在定性和定量上均達(dá)到了最先進(jìn)的性能水平。

具體的實(shí)現(xiàn)方式如下圖所示。

在預(yù)處理步驟中,目標(biāo)人物從人物圖像中被分割出來(lái),創(chuàng)建「無(wú)服裝 RGB」圖像,目標(biāo)服裝從服裝圖像中分割出來(lái),并為人物和服裝圖像計(jì)算姿勢(shì)。

這些信息輸入被帶入 128×128 Parallel-UNet(關(guān)鍵步驟)以創(chuàng)建 128x128 的試穿圖像,該圖像與試穿條件的輸入一起作為輸入進(jìn)一步發(fā)送到 256×256 Parallel-UNet 中。

再把 256×256 Parallel-UNet 的輸出內(nèi)容被發(fā)送到標(biāo)準(zhǔn)超分辨率擴(kuò)散(super resolution diffusion)來(lái)創(chuàng)建 1024×1024 的圖像。

而在上面整個(gè)流程中最為重要的 128×128 Parallel-UNet 的構(gòu)架和處理過(guò)程,如下圖所示。

將與服裝無(wú)關(guān)的 RGB 和噪聲圖像輸入頂部的 person-UNet 中。

由于兩個(gè)輸入內(nèi)容都是按像素對(duì)齊的,在 UNet 處理開(kāi)始時(shí)直接沿著通道維度(channel demension)將兩個(gè)圖像連接起來(lái)。

由于兩個(gè)輸入都是按像素對(duì)齊的,我們?cè)?UNet 處理開(kāi)始時(shí)直接沿著通道維度將它們連接起來(lái)。

將分割后的服裝圖像輸入位于底部的 garment-UNet。

服裝的特征通過(guò)交叉注意(cross attention)融合到目標(biāo)圖像之中。

為了保存模型參數(shù),谷歌研究人員在 32×32 上采樣(Upsampling)之后提前停止了 garment-UNet,此時(shí) person-UNet 中的最終交叉注意力模塊(final cross attention module)已經(jīng)完成。

人和衣服的姿勢(shì)首先被送入線性層以分別計(jì)算姿勢(shì)嵌入。

然后通過(guò)注意力機(jī)制將姿勢(shì)嵌入融合到 person-UNet 中。

此外,它們被用在使用 FiLM 在所有規(guī)模上調(diào)制兩個(gè) UNet 的特征。

與主流技術(shù)的對(duì)比

用戶(hù)調(diào)查研究: 對(duì)于每組輸入的圖片,15 個(gè)普通用戶(hù)選從 4 個(gè)備選技術(shù)中選擇一個(gè)他們認(rèn)為最好的,或者選擇「無(wú)法區(qū)分」。TryOnDiffusion 的表現(xiàn)明顯超過(guò)了其他技術(shù)。

下圖從左到右依次是「輸入,TryOnGAN,SDAFN,HR-VITON,谷歌的方法」。

局限性

不過(guò) TryOnDiffusion 存在一些局限性。

首先,在預(yù)處理過(guò)程中,如果分割圖和姿勢(shì)估計(jì)存在錯(cuò)誤,谷歌的方法可能會(huì)出現(xiàn)服裝泄漏的瑕疵。

幸運(yùn)的是,近年來(lái)這方面的準(zhǔn)確性已經(jīng)大大提高,這種情況并不經(jīng)常發(fā)生。

其次,不包括關(guān)服裝的 RGB 來(lái)顯示身體的效果并不理想,因?yàn)橛袝r(shí)它可能只能保留身份的一部分。

例如紋身在這種情況下會(huì)不可見(jiàn),某些的肌肉結(jié)構(gòu)也會(huì)不可見(jiàn)。

第三,我們的訓(xùn)練和測(cè)試數(shù)據(jù)集通常都會(huì)具有干凈統(tǒng)一的背景,因此無(wú)法確定該方法在更復(fù)雜的背景下的表現(xiàn)如何。

第四,我們不能保證服裝在模特身上是否真的合身,只關(guān)注試穿的視覺(jué)效果。

最后,本研究側(cè)重于上半身的服裝,谷歌還沒(méi)有對(duì)全身試穿效果進(jìn)行實(shí)驗(yàn),未來(lái)會(huì)進(jìn)一步對(duì)全身效果進(jìn)行研究。

參考資料:

  • https://blog.google/products/shopping/virtual-try-on-google-generative-ai/?continueFlag=3bff5717caf44179385521a75a571d04

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知