首頁(yè) > 智能時(shí)代>人工智能

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

量子位 2022/6/30 14:14:28 責(zé)編：長(zhǎng)河

評(píng)論：

朋友，你知道這個(gè)英文單詞是什么嗎？

Pneumonoultramicroscopicsilicovolcanoconiosis.

這個(gè)世界公認(rèn)最長(zhǎng) —— 由 45 個(gè)字母組成的單詞，意思是“因肺部沉積火山矽質(zhì)微粒所引起的疾病”（俗稱(chēng)火山矽肺?。?。

但如果說(shuō)，現(xiàn)在不是讓你拼讀這個(gè)單詞，而是…… 把它給畫(huà)出來(lái)呢？

（讀都讀不出來(lái)，還畫(huà)畫(huà)？？？）

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

谷歌最新提出來(lái)的一個(gè) AI——Parti，它就能輕松 hold 住這事。

在把這個(gè)單詞“投喂”給 Parti 后，它就能有模有樣地生成多張合情合理的肺部疾病圖片：

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

但這只是 Parti 小試牛刀的能力，據(jù)谷歌介紹，它是目前最先進(jìn)的“文本轉(zhuǎn)圖像”AI。

例如，跟它說(shuō)句：“把悉尼歌劇院和巴黎鐵塔做個(gè)結(jié)合”，輸出結(jié)果是這樣的：

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

（不知道的還真以為是畫(huà)報(bào)呢）

而且在算法路數(shù)上，還不同于谷歌自家的 Imagen，Parti 可以說(shuō)是把“AI 作畫(huà)”卷出了新高度。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

就連谷歌 AI 負(fù)責(zé)人 Jeff Dean 也連發(fā)數(shù)條推文，玩得不亦樂(lè)乎：

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

可擴(kuò)展到 200 億參數(shù)：更逼真，更“聰明”

事實(shí)上，Parti 的能力還不止于此。

得益于模型可擴(kuò)展到 200 億參數(shù)，一方面，它生成的圖像更加細(xì)節(jié)逼真。

不管是短短幾個(gè)字，還是五十多個(gè)個(gè)單詞的小段落，都能清晰展現(xiàn)出來(lái)。

比如，The back of a violin，小提琴的背面。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

亦或是照著梵高《星空》來(lái)描述的夜晚畫(huà)面。ps，這段有 67 個(gè)單詞。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

結(jié)果 Parti 也不在話下，一攬子把各種風(fēng)格的圖全給你畫(huà)出來(lái)了~

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

這也正是 Parti 的第二大能力，不光細(xì)節(jié)到位，風(fēng)格也能做到多變。

還有像“浣熊穿正裝，頭戴禮帽，拄著拐杖，拿著個(gè)垃圾袋”這種奇特的描述，它也能在整出花活的同時(shí)還不落細(xì)節(jié)。

風(fēng)格上，則有梵高風(fēng)、埃及法老風(fēng)、像素風(fēng)、中國(guó)傳統(tǒng)繪畫(huà)風(fēng)、抽象主義風(fēng)……

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

甚至有時(shí)候它還會(huì)講雙關(guān)笑話。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

（Toad’ay，癩蛤?。?/p>

具體在測(cè)試結(jié)果上，MS-COCO、Localized Narrative（LN，4 倍長(zhǎng)的描述）上 FID 分?jǐn)?shù)，Parti 都取得了最先進(jìn)的結(jié)果。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

尤其在 MS-COCO 零樣本的 FID 得分僅為 7.23，微調(diào) FID 得分為 3.22，超過(guò)了此前的 Imagen 和 DALL-E 2。

所有組件都是 Transformer

時(shí)隔一個(gè)月，谷歌再把 AI 作畫(huà)卷出新高度，結(jié)果作者卻說(shuō)：秘訣很簡(jiǎn)單。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

Parti 主要是將文本生成圖像視作序列到序列之間建模。這有點(diǎn)類(lèi)似于機(jī)器翻譯，將文本標(biāo)記作為編碼器的輸入，目標(biāo)輸出從文本變成了圖像。

從結(jié)構(gòu)上看，它的所有組件只有三部分：編碼器、解碼器以及圖像標(biāo)記器，且都是基于標(biāo)準(zhǔn) Transformer。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

首先，使用基于 Transformer 的圖像標(biāo)記器 ViT-VQGAN，將圖像編碼為離散的標(biāo)記序列。

然后再通過(guò) Transformer 的編碼-解碼結(jié)構(gòu)，將參數(shù)擴(kuò)展到 200 億。

以往關(guān)于文本生成圖像的研究，除了最早出現(xiàn)的 GAN，大體可以分成兩種思路。

一種是基于自回歸模型，首先文本特征映射到圖像特征，再使用類(lèi)似于 Transformer 的序列架構(gòu)，來(lái)學(xué)習(xí)語(yǔ)言輸入和圖像輸出之間的關(guān)系。

這種方法的一個(gè)關(guān)鍵組成部分就是圖像標(biāo)記器，將每個(gè)圖像轉(zhuǎn)換為一個(gè)離散單元的序列。比如 DALL-E 和 CogView，就采用了這一思路。

另一種則是這段時(shí)間以來(lái)進(jìn)展頻頻的路線 —— 基于擴(kuò)散的文本到圖像模型，比如 DALL-E 2 和 Imagen。

他們摒棄了圖像標(biāo)記器，而是采用擴(kuò)散模型來(lái)直接生成圖像?？梢钥吹降氖牵@些模型產(chǎn)生的圖像質(zhì)量更高，在 MS-COCO 零樣本 FID 得分更好。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

而 Parti 模型的成功，則證明了自回歸模型可以用來(lái)改善文本生成圖像的效果。

與此同時(shí)，Parti 還引入并發(fā)布了新的基準(zhǔn)測(cè)試 ——PartiPrompts，用于衡量模型在 12 個(gè)類(lèi)別和 11 個(gè)挑戰(zhàn)方面的能力。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

但 Parti 還是有一定的局限性，研究人員也展示了一些 bug：

比如，對(duì)否定的描述就沒(méi)招了~

一個(gè)沒(méi)有香蕉的盤(pán)子，旁邊一個(gè)沒(méi)有橙汁兒的玻璃杯。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

還會(huì)犯一些常識(shí)性錯(cuò)誤，例如不合理地縮放。比如這張圖，機(jī)器人竟然比賽車(chē)高出好幾倍。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

一個(gè)穿著賽車(chē)服和黑色遮陽(yáng)板的閃亮機(jī)器人自豪地站在一輛 F1 賽車(chē)前。太陽(yáng)落在城市景觀上。漫畫(huà)書(shū)插圖。

谷歌“自己卷自己”

在這項(xiàng)研究來(lái)自 Google Research，團(tuán)隊(duì)中的華人居多。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

研究核心工作人員包括 Yuanzhong Xu、Thang Luong 等，目前均就職于谷歌從事 AI 相關(guān)研究工作。

（Thang Luong 在谷歌學(xué)術(shù)上的引用量高達(dá) 20000+）

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

△ 左：Yuanzhong Xu；右：Thang Luong

不過(guò)有意思的是，同為“說(shuō)句話讓 AI 作畫(huà)”，同為出自谷歌之手的 Imagen，它跟 Parti 還真有點(diǎn)千絲萬(wàn)縷的關(guān)系。

在 Parti 的 GitHub 的項(xiàng)目文檔中就有提到：

感謝 Imagen 團(tuán)隊(duì)，他們?cè)诎l(fā)布 Imagen 之前與我們分享了其最近完整的結(jié)果。
他們?cè)?CF-guidance 方面的重要發(fā)現(xiàn)，對(duì)最終的 Parti 模型特別有幫助。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

而且 Imagen 的作者之一 Burcu Karagol Ayan，也參與到了 Parti 的項(xiàng)目中。

（有種谷歌“自己卷自己”那味了）

不僅如此，就連“隔壁”DALL-E 2 的作者 Aditya Ramesh，也給 Parti 在 MS-COCO 評(píng)價(jià)方面做了討論工作。

以及 DALL-Eval 的作者們，也在 Parti 數(shù)據(jù)方面的工作提供了幫助。

One More Thing

有一說(shuō)一，就“文本生成圖像”這事，可不只是研究人員們的寵兒。

網(wǎng)友們?cè)凇巴妗彼@條路上，也是樂(lè)此不疲（腦洞不要太大好吧）。

前一陣子讓 Imagen 畫(huà)一幅宋朝“虎戴 VR”，直接演變成 AI 作畫(huà)大戰(zhàn)。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

△ 圖：Imagen 作畫(huà)

DALL?E、MidJourney 等“聞?dòng)嵹s來(lái)”參與其中。

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

△ DALL?E 作畫(huà)

甚至還有把 Wordle 和 DALL-E 2 搞到一起的：

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

……

不過(guò)回歸到這次的 Parti，好玩歸好玩，但還是有網(wǎng)友提出了“直擊靈魂”的問(wèn)題：

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

啥時(shí)候商業(yè)化？要是自己“關(guān)門(mén)玩”就沒(méi)意思了。

Parti 論文地址：

https://parti.research.google/

GitHub 項(xiàng)目地址：

https://github.com/google-research/parti

參考鏈接：

[1]https://twitter.com/lmthang/status/1539664610596225024

[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289

[3]https://imagen.research.google/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌新 AI 火了！世界最長(zhǎng)單詞都能畫(huà)：Pneumonoultramicroscopicsilicovolcanoconiosis

可擴(kuò)展到 200 億參數(shù)：更逼真，更“聰明”

所有組件都是 Transformer

谷歌“自己卷自己”

One More Thing

相關(guān)文章

可擴(kuò)展到 200 億參數(shù)：更逼真，更“聰明”