首頁 > 智能時代>人工智能

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

量子位 2022/8/14 9:33:05 責(zé)編：長河

評論：

人類幼崽 2 歲就能做的事，AI 竟然才學(xué)會？

早在 2017 年，就有網(wǎng)友吐槽：2 歲幼童只要見過一次犀牛的照片，就能在其他圖片里認(rèn)出不同姿勢、視角和風(fēng)格的卡通犀牛，但 AI 卻做不到。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

直到現(xiàn)在，這一點(diǎn)終于被科學(xué)家攻克了！

最新研究發(fā)現(xiàn)，只要給 AI 喂 3-5 張圖片，AI 就能抽象出圖片里的物體或風(fēng)格，再隨機(jī)生成個性化的新圖片。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

有網(wǎng)友評價：非?？?，這可能是我這幾個月來看到的最好的項(xiàng)目。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

它是如何工作的？

讓我們先來看幾個例子。

當(dāng)你上傳 3 張不同角度的陶瓷貓照片，可能會得到以下 4 張新圖像：兩只在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術(shù)風(fēng)格的貓以及陶瓷貓主題的午餐盒。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

同樣的例子還有藝術(shù)品：

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

鎧甲小人：

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

碗：

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

不只是提取圖像中的物體，AI 還能生成特定風(fēng)格的新圖像。例如下圖，AI 提取了輸入圖像的繪畫風(fēng)格，生成了一系列該風(fēng)格的新畫作。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

更神奇的是，它還能將兩組輸入圖像相結(jié)合，提取一組圖像中的物體，再提取另一組的圖像風(fēng)格，兩者結(jié)合，生成一張嶄新的圖像。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

除此之外，有了這個功能，你還可以對一些經(jīng)典圖像“下手”，給它們添加一些新元素。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

那么，這么神奇的功能背后是什么原理呢？

盡管近兩年來，大規(guī)模文本-圖像模型，如 DALL?E、CLIP、GLIDE 等，已經(jīng)被證明有很強(qiáng)的自然語言推理能力。

但有一點(diǎn)：如果用戶提出一些特定的需求，比如生成一張包含我最喜歡的童年玩具的新照片，或者把孩子的涂鴉變成一件藝術(shù)品，這些大規(guī)模模型都很難做到。

為了應(yīng)對這一挑戰(zhàn)，研究給出了一個固定的、預(yù)先訓(xùn)練好的文本-圖像模型和一個描述概念的小圖像集（用戶輸入的 3-5 張圖像），目標(biāo)是找到一個單一的詞嵌入，從小集合中重建圖像。由于這種嵌入是通過優(yōu)化過程發(fā)現(xiàn)的，于是稱之為“文本倒置（Textual Inversion）”。

具體來說，就是先抽象出用戶輸入圖像中的物體或風(fēng)格，并轉(zhuǎn)換為“S?”這一偽詞（pseudo-word），這時，這個偽詞就可以被當(dāng)作任何其他詞來處理，最后根據(jù)“S?”組合成的自然語句，生成個性化的新圖像，比如：

“一張 S?在海灘上的照片”、”一幅掛在墻上的 S?的油畫”、”以 S2?的風(fēng)格畫一幅 S1?”。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

值得注意的是，由于本次研究應(yīng)用了一個小規(guī)模、經(jīng)過策劃的數(shù)據(jù)集，因此在生成圖像時能有效地避免刻板印象。

例如下圖，當(dāng)提示“醫(yī)生”時，其他模型傾向于生成白種人和男性的圖像，而本模型生成圖像中則增加了女性和其他種族的人數(shù)。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

目前，該項(xiàng)目的代碼和數(shù)據(jù)已開源，感興趣的小伙伴可以關(guān)注一下。

作者介紹

該篇論文來自特拉維夫大學(xué)和英偉達(dá)的研究團(tuán)隊，作者分別是 Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者 Rinon Gal，是特拉維夫大學(xué)的計算機(jī)科學(xué)博士生，師從 Daniel Cohen-Or 和 Amit Bermano，主要研究方向是在減少監(jiān)督的條件下生成 2D 和 3D 模型，目前在英偉達(dá)工作。

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

參考鏈接：

[1]https://textual-inversion.github.io/
[2]https://github.com/rinongal/textual_inversion
[3]https://arxiv.org/abs/2208.01618
[4]https://twitter.com/_akhaliq/status/1554630742717726720
[5]https://rinongal.github.io/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英偉達(dá)從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能 AI 終于學(xué)會了

它是如何工作的？

作者介紹

相關(guān)文章

它是如何工作的？