設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

視覺版 ChatGPT 來了,吸收 AI 畫畫全技能

量子位 2023/3/11 13:00:07 責(zé)編:夢澤

原文標(biāo)題:《視覺版 ChatGPT 來了!吸收 AI 畫畫全技能,MSRA 全華人團隊打造,微軟 16 年老將領(lǐng)銜》

ChatGPT 會畫畫了!

問它:能生成一張貓片給我嗎?

立刻連文帶圖全有了。

還能根據(jù)新的文字指令調(diào)整圖片:把貓換成狗。

同時也看得懂圖、有理解能力。

比如發(fā)一張圖給它,然后問摩托是什么顏色?它能回答出是黑色。

如上,就是由 MSRA 資深研究人員們提出的視覺版 ChatGPT(Visual ChatGPT)。

通過給 ChatGPT 結(jié)合多種視覺模型,并利用一個提示管理器(Prompt Manager),他們成功讓 ChatGPT 可以處理各種視覺任務(wù)。

這項工作一發(fā)出來就火了,GitHub 攬星已超過 1.5k。

簡單總結(jié)一下,就是把 GPT 和 Dall-E 合并的感覺~

又懂文字又會畫圖…… 有人就說:

這不是終極 meme 圖制造機?

訣竅在于提示工程?

Visual ChatGPT,其實就是讓 ChatGPT 可以處理多模態(tài)信息。

但是從頭訓(xùn)練一個多模態(tài)模型,工作量非常大。

研究人員想到可以在 ChatGPT 的基礎(chǔ)上,結(jié)合一些視覺模型。

而想要達(dá)到這一目的,關(guān)鍵需要一個中間站。

由此他們提出了提示管理器(Prompt Manager)的概念。

它的作用主要有 3 方面:

第一、明確告訴 ChatGPT,每個視覺模型的作用,并指定好輸入輸出格式。

第二、轉(zhuǎn)換不同的視覺信息,如將 PNG 圖像、深度圖像、掩碼矩陣等轉(zhuǎn)換為語言格式,方便 ChatGPT 理解。

第三、處理視覺模型的歷史生成結(jié)果,以及不同模型的調(diào)用優(yōu)先級、規(guī)避沖突等,讓 ChatGPT 能夠以迭代的方式接收視覺模型的生成內(nèi)容,直到輸出用戶滿意的結(jié)果。

這樣一來,Visual ChatGPT 的工作流大概長這樣:

假如用戶輸入了一張圖,模型會先將內(nèi)容發(fā)送給提示管理器,然后轉(zhuǎn)換成語言給 ChatGPT 判斷,當(dāng)它發(fā)現(xiàn)這個問題不需要調(diào)用視覺模型,就會直接給出輸出(第一個回答)。

第二個問題時,ChatGPT 分析問題內(nèi)容需要使用視覺模型,就會讓視覺模型開始執(zhí)行,然后一直迭代,直到 ChatGPT 判斷不再需要調(diào)用視覺模型時,才會輸出結(jié)果。

論文介紹,Visual ChatGPT 中包含了 22 個不同的視覺模型。包括 Stable Diffusion、BLIP、pix2pix 等。

為了驗證 Visual ChatGPT 的能力,他們還進(jìn)行了大量零次試驗(zero-shot experiments)。

結(jié)果如開頭所示,Visual ChatGPT 具備很強的圖像理解能力。

可以一直按照人的需求不斷生成、修改圖片。

當(dāng)然,研究人員也提到了這項工作目前還存在一些局限性。

比如生成結(jié)果的質(zhì)量,主要取決于視覺模型的性能。

以及使用大量的提示工程,會一定程度上影響生成結(jié)果的速度。而且還可能同時調(diào)用多個模型,也會影響實時性。

最后,在輸入圖片的隱私安全上,還需要做進(jìn)一步升級保護(hù)。

MSRA 老將出馬

本項研究成果來自微軟亞洲研究院的團隊。

通訊作者是段楠。

他是 MSRA 首席研究員,自然語言計算組研究經(jīng)理,中國科學(xué)技術(shù)大學(xué)兼職博導(dǎo),天津大學(xué)兼職教授,CCF 杰出會員。

主要從事自然語言處理、代碼智能、多模態(tài)智能、機器推理等研究。

2006 年加入 MSRA,任職已超 16 年。

第一作者 Chenfei Wu,同樣是一位資深研究人員了。

據(jù)領(lǐng)英資料顯示,他于 2012 年加入微軟,任職 11 年,目前是一位軟件工程師。

論文地址:

https://arxiv.org/abs/2303.04671

參考鏈接:

  • https://twitter.com/_akhaliq/status/1633642479869198337

本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,AI繪畫

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知