設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

中山大學(xué)團(tuán)隊“梗王”大模型,靠講笑話登上 CVPR

量子位 2024/4/11 17:56:51 責(zé)編:清源

誰能想到,只是讓大模型講笑話,論文竟入選了頂會 CVPR(國際計算機視覺與模式識別會議)!

沒開玩笑,這還真真兒的是一項正兒八經(jīng)的研究。例如看下面這張圖,如果讓你根據(jù)它來講個笑話或梗,你會想到什么?

現(xiàn)在的大模型看完后會說:

腦子短路。

再看一眼 蜘蛛俠 的海報,大模型會配一句“剛擦的玻璃不能弄臟”。

李云龍 、 奧本海默 也被玩得飛起:

導(dǎo)師讀了我的論文之后……

真男人不回頭看爆炸。

還有醬紫的:

不得不說,大模型這腦洞還是挺大的。

這項研究正是來自中山大學(xué) HCP 實驗室林倞教授團(tuán)隊、Sea AI Lab 和哈佛大學(xué)等單位,主打的就是打破常規(guī)思維思考(Think Outside the Box),探索多模態(tài)大模型的創(chuàng)造力。

要知道,同樣的圖要是“喂”給 ChatGPT(GPT-4)等主流大模型,讓它們講笑話或梗,畫風(fēng)可并非如此:

太正經(jīng)了!So boring~~~~

那么中山大學(xué)等單位的這個“梗王大模型”,是怎么煉成的呢?

先讓大模型看搞笑的數(shù)據(jù)

在數(shù)據(jù)的選擇上,團(tuán)隊 pick 的是來自日本的“大喜利”(Oogiri)創(chuàng)新響應(yīng)游戲。

“大喜利”本來是指一系列日本傳統(tǒng)戲劇游戲,隨著時代的快速發(fā)展?,F(xiàn)代的“大喜利”,目前一般是指一種叫 Tonchi (頓智)的游戲,通常以游戲節(jié)目或智力問答節(jié)目的形式呈現(xiàn)。

玩家被提供各種多模態(tài)內(nèi)容,可以是簡單的問題、隨機圖像等,然后提示玩家想出幽默的、有創(chuàng)意的反應(yīng),以達(dá)到令人驚訝的喜劇效果。

例如下面這個“圖文到文”的例子:

玩家要求閱讀圖像,和上面對應(yīng)的文字,嘗試想出一段文字填入對應(yīng)的問號“?”位置,使得整個圖文可以展示出幽默且有創(chuàng)意的效果。

在第一個例子中,老人向年輕人尋求幫助,從正常的思維來看,可能的填寫方式可以是“請問 xxx 路怎么走?”或者是“可以帶我回家嗎,我迷路了”之類的。

然而,所給出的“你… 你能幫我解開手銬嗎?”的寫法具有沖擊感、幽默感,且看起來確實是這么一回事,讓人忍俊不禁。

再看下“圖到文”的例子:

玩家要求看圖配文,并使得圖文搭配起來具有幽默效果。

這張圖看起來是一個很普通的拖車的圖片(需要注意的是,在“大喜利”游戲中,一般圖片都是很普通的日常圖片)。

配文“快讓開!我的兄弟傷得很嚴(yán)重”讓傾斜著身體 45° 向上的車看起來像是一個奄奄一息的車子;在道路上快速的馳騁也確實體現(xiàn)了位于下方的車很著急,急著送兄弟去醫(yī)院。

還有第三種“文到文”的例子:

玩家被要求根據(jù)所給的文字進(jìn)行回復(fù),使得回復(fù)和問題合在一起具備幽默感。

這個例子中的回復(fù)似乎在調(diào)侃程序員的日常工作主要就是代碼的“復(fù)制 + 粘貼”(注:CV 工程師除了可以表示 computer vision 工程師也可以表示 ctrl+c / ctrl+v 工程師 )。

這項工作主要關(guān)注的就是這三種類型的“大喜利”游戲,相關(guān)數(shù)據(jù) Oogiri-GO 如下表所示,含中英日三種語言:

至于為什么要選擇“大喜利”這個游戲,是因為團(tuán)隊認(rèn)為它是用于探索多模態(tài)大模型創(chuàng)新能力的理想平臺。具體原因如下:

“大喜利”游戲是天然的創(chuàng)新響應(yīng)任務(wù)。如上所提到的,現(xiàn)代“大喜利”也被稱為 Tonchi (頓智)?!邦D”在日文和中文中都表示“突然”,而“智”的意思是“智力、洞察力或直覺”,該游戲天然地要求玩家給出令人眼前一亮、靈光一閃的創(chuàng)新響應(yīng);

“大喜利”的數(shù)據(jù)格式是高度合適的。不管是“圖文到文”、“圖到文”還是“文到文”,這些類型都天然地和目前多模特大模型的輸入輸出格式吻合,即輸入為“圖文”,輸出僅為“文”。

“大喜利”數(shù)據(jù)質(zhì)量高。創(chuàng)新是一件很難的事情,即使是人類,因此能作為“創(chuàng)新”相關(guān)的數(shù)據(jù)集并不多。鑒于該游戲長期在互聯(lián)網(wǎng)上非常活躍(在中文社區(qū)中,一般也叫日式神吐槽 / 冷吐槽),而且?guī)в写罅奎c評數(shù)據(jù),比如點贊數(shù)等等。正好積累了大量高質(zhì)量人類創(chuàng)新幽默響應(yīng)可以被用于研究。

再讓大模型打破常規(guī)思考

傳統(tǒng)的鏈?zhǔn)剿伎?/strong>(Chain-of-Thought,CoT)方法是一種順序思考過程,通過逐步推理指導(dǎo)大模型進(jìn)行邏輯推理,每個后續(xù)的思考都建立在前一個思考的基礎(chǔ)上:

這一思考過程一定程度上確保了精確性和嚴(yán)謹(jǐn)性,但對于創(chuàng)造性問題表現(xiàn)不佳。

因此,團(tuán)隊探索了一種新的非順序、創(chuàng)造性思維范式 —— 跳躍思維 Leap-of-Thought(LoT)。

這種范式涉及到思考關(guān)聯(lián)性和知識跳躍。遠(yuǎn)距離的思考也被認(rèn)為是聯(lián)想。

與 CoT 強調(diào)邏輯緊密的思維鏈不同,LoT 強調(diào)打破常規(guī)思維思考問題,激發(fā)模型的創(chuàng)造力。

基于此,團(tuán)隊在 Oogiri-GO 數(shù)據(jù)集基礎(chǔ)之上,進(jìn)一步提出了一套激發(fā)多模態(tài)大模型創(chuàng)造力的訓(xùn)練方法 CLoT

具體而言,CLoT 包括兩個階段。

首先是關(guān)聯(lián)性指令微調(diào)

在這一階段,本文設(shè)計生成式和判別式模板,將 Oogiri-GO 數(shù)據(jù)集轉(zhuǎn)換為指令微調(diào)的訓(xùn)練數(shù)據(jù),用于訓(xùn)練多模態(tài)大模型,使得模型具備初步的創(chuàng)新響應(yīng)能力。

其次是探索性自我調(diào)整。

在這一階段中,本文首先通過設(shè)計遠(yuǎn)關(guān)聯(lián)的條件詞,促使(1)中的模型生成多樣化且與輸入遠(yuǎn)關(guān)聯(lián)的回答,并設(shè)計篩選流程,獲得可靠的新 LoT 數(shù)據(jù)。隨后,新數(shù)據(jù)被轉(zhuǎn)換成指令微調(diào)的訓(xùn)練數(shù)據(jù),用于進(jìn)一步微調(diào)模型。

這一階段可以再細(xì)分為兩個步驟:

探索性遠(yuǎn)程關(guān)聯(lián):這一步驟鼓勵 LLM 在給定的弱關(guān)聯(lián)條件下產(chǎn)生創(chuàng)新的回應(yīng)。通過這種方式,LLM 學(xué)習(xí)在看似不相關(guān)的概念之間建立聯(lián)系,從而生成多樣化的創(chuàng)意內(nèi)容。

自我精煉:在探索性遠(yuǎn)程關(guān)聯(lián)的基礎(chǔ)上,通過設(shè)計一系列篩選流程,收集到的創(chuàng)意回應(yīng)被用來進(jìn)一步訓(xùn)練 LLM。這樣做可以提高 LLM 在處理創(chuàng)造性任務(wù)時的表現(xiàn),使其能夠生成更高質(zhì)量和多樣性的內(nèi)容。

性能評估

為了盡可能全面評估 CLoT,這項研究基于 Oogiri-GO 數(shù)據(jù)集,設(shè)計了選擇題和排序題作為量化評估方式。

實驗結(jié)果表明,CLoT 能夠顯著提高多模態(tài)大模型(如 Qwen 和 CogVLM)的性能,顯著超越包括 GPT4v 在內(nèi)的先進(jìn)模型。

另外,與其他先進(jìn)推理框架 CoT 等相比,在各項量化指標(biāo)下也是有顯著優(yōu)勢的。

此外,研究團(tuán)隊還通過用戶調(diào)查,證實了 CLoT 幫助模型生成了更好的幽默內(nèi)容。

研究團(tuán)隊還考慮到了 CLoT 的泛化性,用“看云猜物 CGG”和“發(fā)散思維測試 DAT”兩個其他任務(wù)評估 CLoT 的性能,實驗結(jié)果顯示 CLoT 相對于基準(zhǔn)模型具有更好的準(zhǔn)確度,說明 CLoT 具備不錯的泛化能力。

DAT 是一種用于評估人類聯(lián)想創(chuàng)造能力的測試。

團(tuán)隊介紹

  • 中山大學(xué)人機物智能融合實驗室 (HCP Lab) 由林倞教授于 2010 年創(chuàng)辦,近年來在多模態(tài)內(nèi)容理解、因果及認(rèn)知推理、具身學(xué)習(xí)等方面取得豐富學(xué)術(shù)成果,數(shù)次獲得國內(nèi)外科技獎項及最佳論文獎,并致力于打造產(chǎn)品級的 AI 技術(shù)及平臺。

  • 論文:https://arxiv.org/ abs / 2312.02439

  • Project:https://zhongshsh.github.io/CLoT/

  • Code:https://github.com/sail-sg/CLoT

本文來自微信公眾號:量子位 (ID:QbitAI),作者:關(guān)注前沿科技

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能大模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知