首頁 > 智能時代>人工智能

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

量子位 2024/4/11 17:56:51 責(zé)編：清源

評論：

誰能想到，只是讓大模型講笑話，論文竟入選了頂會 CVPR（國際計算機視覺與模式識別會議）！

沒開玩笑，這還真真兒的是一項正兒八經(jīng)的研究。例如看下面這張圖，如果讓你根據(jù)它來講個笑話或梗，你會想到什么？

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

現(xiàn)在的大模型看完后會說：

腦子短路。

再看一眼 蜘蛛俠 的海報，大模型會配一句“剛擦的玻璃不能弄臟”。

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

李云龍 、 奧本海默 也被玩得飛起：

導(dǎo)師讀了我的論文之后……
真男人不回頭看爆炸。

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

還有醬紫的：

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

不得不說，大模型這腦洞還是挺大的。

這項研究正是來自中山大學(xué) HCP 實驗室林倞教授團(tuán)隊、Sea AI Lab 和哈佛大學(xué)等單位，主打的就是打破常規(guī)思維思考（Think Outside the Box），探索多模態(tài)大模型的創(chuàng)造力。

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

要知道，同樣的圖要是“喂”給 ChatGPT（GPT-4）等主流大模型，讓它們講笑話或梗，畫風(fēng)可并非如此：

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

太正經(jīng)了！So boring~~~~

那么中山大學(xué)等單位的這個“梗王大模型”，是怎么煉成的呢？

先讓大模型看搞笑的數(shù)據(jù)

在數(shù)據(jù)的選擇上，團(tuán)隊 pick 的是來自日本的“大喜利”（Oogiri）創(chuàng)新響應(yīng)游戲。

“大喜利”本來是指一系列日本傳統(tǒng)戲劇游戲，隨著時代的快速發(fā)展?，F(xiàn)代的“大喜利”，目前一般是指一種叫 Tonchi （頓智）的游戲，通常以游戲節(jié)目或智力問答節(jié)目的形式呈現(xiàn)。

玩家被提供各種多模態(tài)內(nèi)容，可以是簡單的問題、隨機圖像等，然后提示玩家想出幽默的、有創(chuàng)意的反應(yīng)，以達(dá)到令人驚訝的喜劇效果。

例如下面這個“圖文到文”的例子：

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

玩家要求閱讀圖像，和上面對應(yīng)的文字，嘗試想出一段文字填入對應(yīng)的問號“?”位置，使得整個圖文可以展示出幽默且有創(chuàng)意的效果。

在第一個例子中，老人向年輕人尋求幫助，從正常的思維來看，可能的填寫方式可以是“請問 xxx 路怎么走？”或者是“可以帶我回家嗎，我迷路了”之類的。

然而，所給出的“你… 你能幫我解開手銬嗎？”的寫法具有沖擊感、幽默感，且看起來確實是這么一回事，讓人忍俊不禁。

再看下“圖到文”的例子：

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

玩家要求看圖配文，并使得圖文搭配起來具有幽默效果。

這張圖看起來是一個很普通的拖車的圖片（需要注意的是，在“大喜利”游戲中，一般圖片都是很普通的日常圖片）。

配文“快讓開！我的兄弟傷得很嚴(yán)重”讓傾斜著身體 45° 向上的車看起來像是一個奄奄一息的車子；在道路上快速的馳騁也確實體現(xiàn)了位于下方的車很著急，急著送兄弟去醫(yī)院。

還有第三種“文到文”的例子：

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

玩家被要求根據(jù)所給的文字進(jìn)行回復(fù)，使得回復(fù)和問題合在一起具備幽默感。

這個例子中的回復(fù)似乎在調(diào)侃程序員的日常工作主要就是代碼的“復(fù)制 + 粘貼”（注：CV 工程師除了可以表示 computer vision 工程師也可以表示 ctrl+c / ctrl+v 工程師）。

這項工作主要關(guān)注的就是這三種類型的“大喜利”游戲，相關(guān)數(shù)據(jù) Oogiri-GO 如下表所示，含中英日三種語言：

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

至于為什么要選擇“大喜利”這個游戲，是因為團(tuán)隊認(rèn)為它是用于探索多模態(tài)大模型創(chuàng)新能力的理想平臺。具體原因如下：

“大喜利”游戲是天然的創(chuàng)新響應(yīng)任務(wù)。如上所提到的，現(xiàn)代“大喜利”也被稱為 Tonchi (頓智)?！邦D”在日文和中文中都表示“突然”，而“智”的意思是“智力、洞察力或直覺”，該游戲天然地要求玩家給出令人眼前一亮、靈光一閃的創(chuàng)新響應(yīng)；

“大喜利”的數(shù)據(jù)格式是高度合適的。不管是“圖文到文”、“圖到文”還是“文到文”，這些類型都天然地和目前多模特大模型的輸入輸出格式吻合，即輸入為“圖文”，輸出僅為“文”。

“大喜利”數(shù)據(jù)質(zhì)量高。創(chuàng)新是一件很難的事情，即使是人類，因此能作為“創(chuàng)新”相關(guān)的數(shù)據(jù)集并不多。鑒于該游戲長期在互聯(lián)網(wǎng)上非常活躍（在中文社區(qū)中，一般也叫日式神吐槽 / 冷吐槽），而且?guī)в写罅奎c評數(shù)據(jù)，比如點贊數(shù)等等。正好積累了大量高質(zhì)量人類創(chuàng)新幽默響應(yīng)可以被用于研究。

再讓大模型打破常規(guī)思考

傳統(tǒng)的鏈?zhǔn)剿伎?/strong>（Chain-of-Thought，CoT）方法是一種順序思考過程，通過逐步推理指導(dǎo)大模型進(jìn)行邏輯推理，每個后續(xù)的思考都建立在前一個思考的基礎(chǔ)上：

這一思考過程一定程度上確保了精確性和嚴(yán)謹(jǐn)性，但對于創(chuàng)造性問題表現(xiàn)不佳。

因此，團(tuán)隊探索了一種新的非順序、創(chuàng)造性思維范式 —— 跳躍思維 Leap-of-Thought（LoT）。

這種范式涉及到思考關(guān)聯(lián)性和知識跳躍。遠(yuǎn)距離的思考也被認(rèn)為是聯(lián)想。

與 CoT 強調(diào)邏輯緊密的思維鏈不同，LoT 強調(diào)打破常規(guī)思維思考問題，激發(fā)模型的創(chuàng)造力。

基于此，團(tuán)隊在 Oogiri-GO 數(shù)據(jù)集基礎(chǔ)之上，進(jìn)一步提出了一套激發(fā)多模態(tài)大模型創(chuàng)造力的訓(xùn)練方法 CLoT。

具體而言，CLoT 包括兩個階段。

首先是關(guān)聯(lián)性指令微調(diào)。

在這一階段，本文設(shè)計生成式和判別式模板，將 Oogiri-GO 數(shù)據(jù)集轉(zhuǎn)換為指令微調(diào)的訓(xùn)練數(shù)據(jù)，用于訓(xùn)練多模態(tài)大模型，使得模型具備初步的創(chuàng)新響應(yīng)能力。

其次是探索性自我調(diào)整。

在這一階段中，本文首先通過設(shè)計遠(yuǎn)關(guān)聯(lián)的條件詞，促使（1）中的模型生成多樣化且與輸入遠(yuǎn)關(guān)聯(lián)的回答，并設(shè)計篩選流程，獲得可靠的新 LoT 數(shù)據(jù)。隨后，新數(shù)據(jù)被轉(zhuǎn)換成指令微調(diào)的訓(xùn)練數(shù)據(jù)，用于進(jìn)一步微調(diào)模型。

這一階段可以再細(xì)分為兩個步驟：

探索性遠(yuǎn)程關(guān)聯(lián)：這一步驟鼓勵 LLM 在給定的弱關(guān)聯(lián)條件下產(chǎn)生創(chuàng)新的回應(yīng)。通過這種方式，LLM 學(xué)習(xí)在看似不相關(guān)的概念之間建立聯(lián)系，從而生成多樣化的創(chuàng)意內(nèi)容。

自我精煉：在探索性遠(yuǎn)程關(guān)聯(lián)的基礎(chǔ)上，通過設(shè)計一系列篩選流程，收集到的創(chuàng)意回應(yīng)被用來進(jìn)一步訓(xùn)練 LLM。這樣做可以提高 LLM 在處理創(chuàng)造性任務(wù)時的表現(xiàn)，使其能夠生成更高質(zhì)量和多樣性的內(nèi)容。

性能評估

為了盡可能全面評估 CLoT，這項研究基于 Oogiri-GO 數(shù)據(jù)集，設(shè)計了選擇題和排序題作為量化評估方式。

實驗結(jié)果表明，CLoT 能夠顯著提高多模態(tài)大模型（如 Qwen 和 CogVLM）的性能，顯著超越包括 GPT4v 在內(nèi)的先進(jìn)模型。

另外，與其他先進(jìn)推理框架 CoT 等相比，在各項量化指標(biāo)下也是有顯著優(yōu)勢的。

此外，研究團(tuán)隊還通過用戶調(diào)查，證實了 CLoT 幫助模型生成了更好的幽默內(nèi)容。

研究團(tuán)隊還考慮到了 CLoT 的泛化性，用“看云猜物 CGG”和“發(fā)散思維測試 DAT”兩個其他任務(wù)評估 CLoT 的性能，實驗結(jié)果顯示 CLoT 相對于基準(zhǔn)模型具有更好的準(zhǔn)確度，說明 CLoT 具備不錯的泛化能力。

DAT 是一種用于評估人類聯(lián)想創(chuàng)造能力的測試。

團(tuán)隊介紹

中山大學(xué)人機物智能融合實驗室 (HCP Lab) 由林倞教授于 2010 年創(chuàng)辦，近年來在多模態(tài)內(nèi)容理解、因果及認(rèn)知推理、具身學(xué)習(xí)等方面取得豐富學(xué)術(shù)成果，數(shù)次獲得國內(nèi)外科技獎項及最佳論文獎，并致力于打造產(chǎn)品級的 AI 技術(shù)及平臺。
論文：https://arxiv.org/ abs / 2312.02439
Project：https://zhongshsh.github.io/CLoT/
Code：https://github.com/sail-sg/CLoT

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章
關(guān)鍵詞：人工智能，大模型
報告：79.8% 受訪美國公民希望對人工智能實施嚴(yán)格法律監(jiān)管
OpenAI CEO 阿爾特曼想要建立一個全球 AI 聯(lián)盟，加快人工智能發(fā)展
創(chuàng)維創(chuàng)始人黃宏生談電視開機率低：AI 將讓人們回歸電視
Meta 發(fā)布新一代 AI 訓(xùn)練與推理芯片，性能為初代芯片三倍
UL Procyon AI 圖像生成基準(zhǔn)測試現(xiàn)已適配兼容蘋果 macOS 系統(tǒng)
微軟宣布 4400 億日元歷史最大在日單筆投資，并為三百萬人提供 AI 技能培訓(xùn)

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR

先讓大模型看搞笑的數(shù)據(jù)

再讓大模型打破常規(guī)思考

性能評估

團(tuán)隊介紹

相關(guān)文章

中山大學(xué)團(tuán)隊“梗王”大模型，靠講笑話登上 CVPR