首頁 > 科學(xué)探索>科技前沿

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

量子位 2023/3/11 13:00:07 責(zé)編：夢澤

評論：

原文標(biāo)題：《視覺版 ChatGPT 來了！吸收 AI 畫畫全技能，MSRA 全華人團隊打造，微軟 16 年老將領(lǐng)銜》

ChatGPT 會畫畫了！

問它：能生成一張貓片給我嗎？

立刻連文帶圖全有了。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

還能根據(jù)新的文字指令調(diào)整圖片：把貓換成狗。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

同時也看得懂圖、有理解能力。

比如發(fā)一張圖給它，然后問摩托是什么顏色？它能回答出是黑色。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

如上，就是由 MSRA 資深研究人員們提出的視覺版 ChatGPT（Visual ChatGPT）。

通過給 ChatGPT 結(jié)合多種視覺模型，并利用一個提示管理器（Prompt Manager），他們成功讓 ChatGPT 可以處理各種視覺任務(wù)。

這項工作一發(fā)出來就火了，GitHub 攬星已超過 1.5k。

簡單總結(jié)一下，就是把 GPT 和 Dall-E 合并的感覺~

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

又懂文字又會畫圖…… 有人就說：

這不是終極 meme 圖制造機？

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

訣竅在于提示工程？

Visual ChatGPT，其實就是讓 ChatGPT 可以處理多模態(tài)信息。

但是從頭訓(xùn)練一個多模態(tài)模型，工作量非常大。

研究人員想到可以在 ChatGPT 的基礎(chǔ)上，結(jié)合一些視覺模型。

而想要達(dá)到這一目的，關(guān)鍵需要一個中間站。

由此他們提出了提示管理器（Prompt Manager）的概念。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

它的作用主要有 3 方面：

第一、明確告訴 ChatGPT，每個視覺模型的作用，并指定好輸入輸出格式。

第二、轉(zhuǎn)換不同的視覺信息，如將 PNG 圖像、深度圖像、掩碼矩陣等轉(zhuǎn)換為語言格式，方便 ChatGPT 理解。

第三、處理視覺模型的歷史生成結(jié)果，以及不同模型的調(diào)用優(yōu)先級、規(guī)避沖突等，讓 ChatGPT 能夠以迭代的方式接收視覺模型的生成內(nèi)容，直到輸出用戶滿意的結(jié)果。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

這樣一來，Visual ChatGPT 的工作流大概長這樣：

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

假如用戶輸入了一張圖，模型會先將內(nèi)容發(fā)送給提示管理器，然后轉(zhuǎn)換成語言給 ChatGPT 判斷，當(dāng)它發(fā)現(xiàn)這個問題不需要調(diào)用視覺模型，就會直接給出輸出（第一個回答）。

第二個問題時，ChatGPT 分析問題內(nèi)容需要使用視覺模型，就會讓視覺模型開始執(zhí)行，然后一直迭代，直到 ChatGPT 判斷不再需要調(diào)用視覺模型時，才會輸出結(jié)果。

論文介紹，Visual ChatGPT 中包含了 22 個不同的視覺模型。包括 Stable Diffusion、BLIP、pix2pix 等。

為了驗證 Visual ChatGPT 的能力，他們還進(jìn)行了大量零次試驗（zero-shot experiments）。

結(jié)果如開頭所示，Visual ChatGPT 具備很強的圖像理解能力。

可以一直按照人的需求不斷生成、修改圖片。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

當(dāng)然，研究人員也提到了這項工作目前還存在一些局限性。

比如生成結(jié)果的質(zhì)量，主要取決于視覺模型的性能。

以及使用大量的提示工程，會一定程度上影響生成結(jié)果的速度。而且還可能同時調(diào)用多個模型，也會影響實時性。

最后，在輸入圖片的隱私安全上，還需要做進(jìn)一步升級保護(hù)。

MSRA 老將出馬

本項研究成果來自微軟亞洲研究院的團隊。

通訊作者是段楠。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

他是 MSRA 首席研究員，自然語言計算組研究經(jīng)理，中國科學(xué)技術(shù)大學(xué)兼職博導(dǎo)，天津大學(xué)兼職教授，CCF 杰出會員。

主要從事自然語言處理、代碼智能、多模態(tài)智能、機器推理等研究。

2006 年加入 MSRA，任職已超 16 年。

第一作者 Chenfei Wu，同樣是一位資深研究人員了。

據(jù)領(lǐng)英資料顯示，他于 2012 年加入微軟，任職 11 年，目前是一位軟件工程師。

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

論文地址：

https://arxiv.org/abs/2303.04671

參考鏈接：

https://twitter.com/_akhaliq/status/1633642479869198337

本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

訣竅在于提示工程？

MSRA 老將出馬

相關(guān)文章

視覺版 ChatGPT 來了，吸收 AI 畫畫全技能

訣竅在于提示工程？