設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

清華開源圖文對話大模型,表情包解讀有一手,奇怪的 benchmark 增加了

量子位 2023/5/22 12:21:01 責(zé)編:夢澤

什么,最懂表情包的中文開源大模型出現(xiàn)了??!

就在最近,來自清華的一個叫 VisualGLM-6B 的大模型在網(wǎng)上傳開了來,起因是網(wǎng)友們發(fā)現(xiàn),它連表情包似乎都能解讀!

像這個臘腸犬版蒙娜麗莎,它不僅準(zhǔn)確理解了這是臘腸犬與蒙娜麗莎的“合體照”,還點出了這只是一幅虛構(gòu)作品:

又像是這個正在出租車后熨衣斗的男子,它也一眼看出了“不對勁”的地方:

值得一提的是,在此前 GPT-4 剛發(fā)布時,網(wǎng)友們也同樣將它用來測了測常識理解能力:

就如同弱智吧問題是大模型語言理解能力的 benchmark 一樣,表情包簡直就是大模型圖片理解能力的 benchmark。

要是它真能理解網(wǎng)友們奇奇怪怪的表情包,那 AI 簡直沒有什么不能 get 到的信息點了啊!

我們趕緊測試了一波,看看它究竟效果如何。

gif 也能看懂,但解讀太過正經(jīng)

目前,VisualGLM-6B 已經(jīng)推出了網(wǎng)頁端試玩版。

只需要在 Hugging Face 的試玩界面上傳圖片,再與它進行“對話”,它就能生成理解圖片的結(jié)果:

先試試初級難度的表情包。

官方給出了幾個問題示例,例如“描述一下這個場景”、“這是什么東西”、“這張圖片描述了什么”,我們就先嘗試一下這幾個問題。

輸入一只正在聽歌的小貓,讓 VisualGLM-6B 描述一下表情包中的場景

還不錯,VisualGLM-6B 準(zhǔn)確 get 了小貓享受音樂或使用電子設(shè)備這個過程!

再輸入一個章魚哥表情包,問它“這是什么東西”:

也沒問題。看起來能拿給爸媽用了(手動狗頭)。

再試試用吃飯小狗,讓 VisualGLM-6B 解讀一下這張圖片描述了什么

看起來初級表情包都沒什么問題,是時候加大力度了。

上傳一個 gif 試試?第一眼似乎沒有問題:

但再換一個 gif 試試就會發(fā)現(xiàn),它似乎只理解了第一幀圖像,猜測是不是“主角在試圖抓住或捕捉它”,但實際上只是在扔鈔票:

與之前的一些圖片理解 AI 不同,VisualGLM-6B 在解讀時會著重介紹表情包角色中的面部表情,例如“它看起來不舒服或者緊張”:

BUT!當(dāng)我們再上一點難度,給表情包配上文字之后,它就無法理解表情包的含義了:

尤其是這種靠配文傳達表情包精髓的,VisualGLM-6B 就會開始展現(xiàn)“瞎解讀”的功底:

如果圖像拼接太多,它還會出現(xiàn)奇怪的 bug,例如把摸魚狗頭人認成大鯊魚:

而且,它在描述表情包的時候整體比較正經(jīng),不會解讀圖像以外的“用意”。

例如,有網(wǎng)友測試了一下經(jīng)典的“熊貓人顯卡”表情包:

以及周星馳的經(jīng)典“我全都要”表情包:

顯然 VisualGLM-6B 能大致理解圖片的場景,但對于表情包的配文就無法理解了。

總結(jié)一下,對于包含經(jīng)典作品角色的表情包,或是經(jīng)過文字加工前的“原始”表情包,VisualGLM-6B 能說出這個角色的名字,或是描述出其中的場景:

雖然也可以讓它描述情緒,不過 AI 看出來的情緒,可能和最終表情包表達的情緒不太一樣:

但一旦表情包加上了文字、或是被 P 進了新場景,VisualGLM-6B 就會因為無法解讀圖片中文字的意思,而變得“看不懂?!绷?。

有時候還會解讀錯亂,例如狗看成豬

那么,擁有一部分解讀表情包能力的 VisualGLM-6B,究竟是什么來頭?

多模態(tài)對話 VisualGLM-6B,最低只需 8.7G 顯存

事實上,VisualGLM-6B 并非專門為“表情包解讀”而開發(fā)。

它是由智譜 AI 和清華大學(xué) KEG 實驗室打造的開源多模態(tài)對話模型,主要用于中文圖像理解,解讀表情包可以說只是它被開發(fā)出來的一個“副業(yè)”。

它的正經(jīng)用法,一般是醬嬸的:

提起這個團隊,大家更熟悉的可能是 ChatGLM-6B 大模型。

后者此前我們有作介紹:

它是“清華系 ChatGPT”的一員,2022 年 8 月發(fā)布,共 62 億規(guī)模參數(shù),支持中英雙語對話。

上線 4 天就突破 6k star,目前已經(jīng)近 25k。

據(jù)介紹,VisualGLM-6B 正是在 ChatGLM-6B 的基礎(chǔ)上完成:

ChatGLM-6B 負責(zé)它的語言模型部分,圖像部分則通過訓(xùn)練 BLIP2-Qformer 構(gòu)建起視覺模型與語言模型的“橋梁”。

因此,VisualGLM-6B 整體模型共 78 億參數(shù)。

具體而言,VisualGLM-6B 的預(yù)訓(xùn)練在中英文權(quán)重相同的情況下,在 30M 高質(zhì)量中文圖文對和 300M 經(jīng)過篩選的英文圖文對上完成(來自 CogView 數(shù)據(jù)集)。

這一訓(xùn)練方法可以將視覺信息對齊到 ChatGLM 的語義空間。

微調(diào)階段,VisualGLM-6B 又在長視覺問答數(shù)據(jù)上訓(xùn)練,以生成符合人類偏好的答案。

與此同時,VisualGLM-6B 由 SwissArmyTransformer (簡稱“sat”) 庫訓(xùn)練,這是一個支持 Transformer 靈活修改、訓(xùn)練的工具庫,支持 Lora、P-tuning 等參數(shù)高效微調(diào)方法。

最終,本項目既提供了 HuggingFace 接口,也提供了基于 sat 的接口。

要說 VisualGLM-6B 最大的特點,便是結(jié)合模型量化技術(shù),可以讓大家在消費級的顯卡上進行本地部署,INT4 量化級別下最低只需 8.7G 顯存

具體包含三種部署工具:

一是命令行 Demo。執(zhí)行命令:

python cli_demo.py

然后程序便自動下載 sat 模型,大家就可以在命令行中進行交互式的對話了。

輸入指示并回車即可生成回復(fù),輸入 clear 可以清空對話歷史,輸入 stop 終止程序。

二是基于 Gradio 的網(wǎng)頁版 Demo。

需要先安裝 Gradio:pip install gradio,然后下載并進入本倉庫運行 web_demo.py,最后在瀏覽器中打開系統(tǒng)輸出的地址即可使用。

三是 API 部署。需要安裝額外的依賴:pip install fastapi uvicorn,然后運行倉庫中的 api.py。

更多細節(jié)和推理、量化部分的方法就不贅述了,可戳參考鏈接 [1] 查看官方介紹。

需要注意的是,如官方所述,VisualGLM-6B 正處于 V1 版本,視覺和語言模型的參數(shù)、計算量都較小,因此會出現(xiàn)相當(dāng)多的已知局限性,像圖像描述事實性 / 模型幻覺問題、圖像細節(jié)信息捕捉不足,以及一些來自語言模型的局限性等等。

就如下面這張測試,VisualGLM-6B 描述得還挺到位的,能看出是阿根廷和世界杯,但別被蒙了:圖上并沒有阿圭羅和迪馬利亞這兩位球星。

因此,官方也稱將在后續(xù)繼續(xù)針對以上問題進行一一改進。

不過,擁有圖片解讀能力的大模型,也并不只有 VisualGLM-6B 一個。

目前來看,表現(xiàn)比較好的“表情包殺手”還是 GPT-4,從網(wǎng)友測試來看,它已經(jīng)能根據(jù)表情包中的文字解讀 meme:

開源大模型方面,基于 Vicuna-13B 開發(fā)的 MiniGPT-4 也能解讀圖片,同樣只需要一張單卡 RTX3090 就能搞定:

不過在這批大模型中,VisualGLM-6B 強調(diào)的則是“中文開源”特點,換而言之,它在中文描述上可能會比其他大模型更準(zhǔn)確一些。

你試玩過這些“表情包解讀 AI”了嗎?感覺誰更能 get 人類思想精華?(手動狗頭)

VisualGLM-6B 試玩地址:

https://huggingface.co/spaces/lykeven/visualglm-6b

參考鏈接:

  • [1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ

  • [2]https://twitter.com/thukeg/status/1659079789599248386

本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色 蕭簫

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能大模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知