2022 年流行“文生圖”模型,那 2023 年流行什么?
機(jī)器學(xué)習(xí)工程師 Daniel Bourke 的答案是:反過(guò)來(lái)!
這不,一個(gè)最新發(fā)布的“圖生文”模型在網(wǎng)上爆火,其優(yōu)秀的效果引發(fā)眾多網(wǎng)友紛紛轉(zhuǎn)發(fā)、點(diǎn)贊。
不僅是基礎(chǔ)的“看圖說(shuō)話”功能,寫(xiě)情詩(shī)、講解劇情、給圖片中對(duì)象設(shè)計(jì)對(duì)話等等,這個(gè) AI 都拿捏得穩(wěn)穩(wěn)的!
比如,當(dāng)你在網(wǎng)上刷到誘人的美食時(shí),只需把圖片發(fā)給它,它就會(huì)立馬識(shí)別出需要的食材和做菜步驟:
甚至圖片中的一些列文虎克的細(xì)節(jié)也能“看”得清清楚楚。
當(dāng)被問(wèn)到如何才能從圖片中倒著的房子里離開(kāi),AI 的回答是:側(cè)面不是有滑梯嘛!
這只新 AI 名為 BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代碼已開(kāi)源。
最重要的是,和以前的研究不同,BLIP-2 使用的是一種通用的預(yù)訓(xùn)練框架,因此可以任意對(duì)接自己的語(yǔ)言模型。
有網(wǎng)友已經(jīng)在暢想把接口換成 ChatGPT 后的強(qiáng)強(qiáng)組合了。
作者之一 Steven Hoi 更是放話:BLIP-2 未來(lái)就是“多模態(tài)版 ChatGPT”。
那么,BLIP-2 神奇的地方還有哪些?一起往下看。
理解能力一流
BLIP-2 的玩法可以說(shuō)非常多樣了。
只需提供一張圖片,你就可以與它對(duì)話,讓它看圖講故事、推理、生成個(gè)性化文本等各種要求都能滿(mǎn)足。
舉個(gè)例子,BLIP-2 不僅能輕松識(shí)別圖片中的景點(diǎn)是長(zhǎng)城,還能介紹出長(zhǎng)城的歷史:
中國(guó)的長(zhǎng)城是公元前 221 年秦始皇為了保護(hù)帝都不受北方侵略而建造的。
給它一張電影劇照,BLIP-2 不光知道出自哪,還知道故事的結(jié)局是 be:泰坦尼克號(hào)沉沒(méi),男主淹死。
在對(duì)人類(lèi)神態(tài)的拿捏上,BLIP-2 同樣把握得非常準(zhǔn)確。
被問(wèn)到這張圖片中的男人是什么表情,他為什么這樣時(shí),BLIP-2 的回答是:他害怕那只雞,因?yàn)樗w來(lái)。
更神奇的是,在許多開(kāi)放性問(wèn)題上,BLIP-2 的表現(xiàn)也很出色。
讓它根據(jù)下面的圖片寫(xiě)一句浪漫的話:
它的回答是這樣的:愛(ài)情就像日落,很難預(yù)見(jiàn)它的到來(lái),但當(dāng)它發(fā)生時(shí),它是如此的美麗。
這不光理解能力滿(mǎn)分,文學(xué)造詣也相當(dāng)強(qiáng)啊!
讓它給圖片中的兩只動(dòng)物生成一段對(duì)話,BLIP-2 也能輕松拿捏傲嬌貓貓 x 蠢萌狗狗的設(shè)定:
貓: 嘿,狗狗,我能騎在你背上嗎?
狗: 當(dāng)然,為什么不呢?
貓: 我已經(jīng)厭倦了在雪地里行走。
那么,如此強(qiáng)大的理解能力背后,BLIP-2 究竟是怎么做到的?
多項(xiàng)視覺(jué)語(yǔ)言任務(wù)上實(shí)現(xiàn)新 SOTA
考慮到大規(guī)模模型的端到端訓(xùn)練成本越來(lái)越高,BLIP-2 使用的是一種通用且高效的預(yù)訓(xùn)練策略:
從現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和凍結(jié)的大型語(yǔ)言模型中引導(dǎo)視覺(jué)語(yǔ)言預(yù)訓(xùn)練。
這也意味著,每個(gè)人都可以選擇自己想用的模型接入使用。
而為了彌補(bǔ)了模態(tài)之間的差距,研究者提出了一個(gè)輕量級(jí)的查詢(xún) Transformer。
該 Transformer 分兩個(gè)階段進(jìn)行預(yù)訓(xùn)練:
第一階段從凍結(jié)圖像編碼器引導(dǎo)視覺(jué)語(yǔ)言表示學(xué)習(xí),第二階段將視覺(jué)從凍結(jié)的語(yǔ)言模型引導(dǎo)到語(yǔ)言生成學(xué)習(xí)。
為了測(cè)試 BLIP-2 的性能,研究人員分別從零樣本圖像-文本生成、視覺(jué)問(wèn)答、圖像-文本檢索、圖像字幕任務(wù)上對(duì)其進(jìn)行了評(píng)估。
最終結(jié)果顯示,BLIP-2 在多項(xiàng)視覺(jué)語(yǔ)言任務(wù)上都實(shí)現(xiàn)了 SOTA。
其中,BLIP-2 在 zero-shot VQAv2 上比 Flamingo 80B 高 8.7%,且訓(xùn)練參數(shù)還減少了 54 倍。
而且顯而易見(jiàn)的是,更強(qiáng)的圖像編碼器或更強(qiáng)的語(yǔ)言模型都會(huì)產(chǎn)生更好的性能。
值得一提的是,研究者在論文最后也提到,BLIP-2 還存在一個(gè)不足,那就是缺乏上下文學(xué)習(xí)能力:
每個(gè)樣本只包含一個(gè)圖像-文本對(duì),目前還無(wú)法學(xué)習(xí)單個(gè)序列中多個(gè)圖像-文本對(duì)之間的相關(guān)性。
研究團(tuán)隊(duì)
BLIP-2 的研究團(tuán)隊(duì)來(lái)自 Salesforce Research。
第一作者為 Junnan Li,他也是一年前推出的 BLIP 的一作。
目前是 Salesforce 亞洲研究院高級(jí)研究科學(xué)家。本科畢業(yè)于香港大學(xué),博士畢業(yè)于新加坡國(guó)立大學(xué)。
研究領(lǐng)域很廣泛,包括自我監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、視覺(jué)-語(yǔ)言。
以下是 BLIP-2 的論文鏈接和 GitHub 鏈接,感興趣的小伙伴們可以自取~
論文鏈接:
https://arxiv.org/pdf/2301.12597.pdf
GitHub 鏈接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2
參考鏈接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:羿閣
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。