首頁(yè) > 智能時(shí)代>人工智能

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

量子位 2025/4/4 12:18:37 責(zé)編：汪淼

評(píng)論：

近來(lái)風(fēng)頭正盛的 GPT-4.5，不僅在日常問(wèn)答中展現(xiàn)出驚人的上下文連貫性，在設(shè)計(jì)、咨詢等需要高度創(chuàng)造力的任務(wù)中也大放異彩。

當(dāng) GPT-4.5 在創(chuàng)意寫作、教育咨詢、設(shè)計(jì)提案等任務(wù)中展現(xiàn)出驚人的連貫性與創(chuàng)造力時(shí)，一個(gè)關(guān)鍵問(wèn)題浮出水面：

多模態(tài)大模型（MLLMs）的“創(chuàng)造力天花板”究竟在哪里？

寫一篇基于圖片的短篇小說(shuō)、分析一張復(fù)雜的教學(xué)課件、甚至設(shè)計(jì)一份用戶界面……

這些對(duì)于人類駕輕就熟的任務(wù)，對(duì)于現(xiàn)有的部分多模態(tài)大模型卻往往是“高難動(dòng)作”。

但現(xiàn)有的評(píng)測(cè)基準(zhǔn)首先難以衡量多模態(tài)大模型的輸出是否具有創(chuàng)造性的見(jiàn)解，同時(shí)部分情境過(guò)于簡(jiǎn)單，難以真實(shí)反映模型在復(fù)雜場(chǎng)景下的創(chuàng)造性思維。

如何科學(xué)量化“多模態(tài)創(chuàng)造力”？

為此，浙江大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室等團(tuán)隊(duì)重磅發(fā)布 Creation-MMBench——

全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)，覆蓋四大任務(wù)類別、51 項(xiàng)細(xì)粒度任務(wù)，用 765 個(gè)高難度測(cè)試案例，為 MLLMs 的“視覺(jué)創(chuàng)意智能”提供全方位體檢。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

為何我們要關(guān)注“視覺(jué)創(chuàng)造智能”？

在人工智能的“智力三元論”中，創(chuàng)造性智能（Creative Intelligence）始終是最難評(píng)估和攻克的一環(huán)，主要涉及的是在不同背景下生成新穎和適當(dāng)解決方案的能力。

現(xiàn)有的 MLLM 評(píng)測(cè)基準(zhǔn)，如 MMBench、MMMU 等，往往更偏重分析性或?qū)嵱眯匀蝿?wù)，卻忽略了多模態(tài) AI 在真實(shí)生活中常見(jiàn)的“創(chuàng)意類任務(wù)”。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

雖然存在部分多模態(tài)基準(zhǔn)納入了對(duì)模型創(chuàng)意力的考察，但他們規(guī)模較小，多為單圖，且情境簡(jiǎn)單，普通的模型即可輕松回答出對(duì)應(yīng)問(wèn)題。

相較而言，Creation-MMBench 設(shè)置的情境復(fù)雜，內(nèi)容多樣，且單圖 / 多圖問(wèn)題交錯(cuò)，能更好的對(duì)多模態(tài)大模型創(chuàng)意力進(jìn)行考察。

舉個(gè)例子

讓模型扮演一位博物館講解員，基于展品圖像生成一段引人入勝的講解詞。
讓模型化身散文作家，圍繞人物照片撰寫一篇情感性和故事性兼?zhèn)涞纳⑽摹?/p>
讓模型親自上任作為米其林大廚，給萌新小白解讀菜肴照片并用一份細(xì)致入微的菜品引領(lǐng)菜鳥入門。

在這些任務(wù)中，模型需要同時(shí)具備“視覺(jué)內(nèi)容理解 + 情境適應(yīng) + 創(chuàng)意性文本生成”的能力，這正是現(xiàn)有基準(zhǔn)難以評(píng)估的核心能力。

Creation-MMBench 有多硬核？

1. 真實(shí)場(chǎng)景 × 多模態(tài)融合：從“紙上談兵”到“實(shí)戰(zhàn)演練”

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

四大任務(wù)類型：Creation-MMBench 共有 51 個(gè)任務(wù)，主要可分為四個(gè)類別，分別是

文學(xué)創(chuàng)作：專注于文學(xué)領(lǐng)域的創(chuàng)作活動(dòng)，包括詩(shī)歌、對(duì)話、故事等形式的寫作。這一類別旨在評(píng)估模型在藝術(shù)性和創(chuàng)造性表達(dá)方面的能力，例如生成富有情感的文字、構(gòu)建引人入勝的敘事或塑造生動(dòng)的角色形象。典型人物包括故事續(xù)寫、詩(shī)歌撰寫等。
日常功能性寫作：聚焦于日常生活中常見(jiàn)的功能性寫作任務(wù)，例如社交媒體內(nèi)容撰寫、公益事業(yè)倡議等。這類任務(wù)強(qiáng)調(diào)實(shí)用性，考察模型在處理真實(shí)場(chǎng)景中常見(jiàn)寫作需求時(shí)的表現(xiàn)，例如撰寫電子郵件、回答生活中的實(shí)際問(wèn)題等。
專業(yè)功能性寫作：關(guān)注專業(yè)領(lǐng)域內(nèi)的功能性寫作和創(chuàng)造性問(wèn)題解決能力。具體任務(wù)包括室內(nèi)設(shè)計(jì)、教案撰寫、風(fēng)景導(dǎo)游詞創(chuàng)作等。這一類別要求模型具備較強(qiáng)的專業(yè)知識(shí)背景和邏輯推理能力，能夠應(yīng)對(duì)較為復(fù)雜且高度專業(yè)化的工作場(chǎng)景。
多模態(tài)理解與創(chuàng)作：注重視覺(jué)理解與創(chuàng)造力的結(jié)合，涉及文檔解析、攝影作品欣賞等任務(wù)。此類別評(píng)估模型在處理多模態(tài)信息（如文本與圖像結(jié)合）時(shí)的表現(xiàn)，考察其是否能夠從視覺(jué)內(nèi)容中提取關(guān)鍵信息，并將其轉(zhuǎn)化為有意義的創(chuàng)意輸出。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

千張跨域圖像：在圖像上，Creation-MMBench 橫跨藝術(shù)作品、設(shè)計(jì)圖紙、生活場(chǎng)景等近 30 個(gè)類別，涉及千張不同圖片。單任務(wù)最多支持 9 圖輸入，逼真還原真實(shí)創(chuàng)作環(huán)境。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

復(fù)雜現(xiàn)實(shí)情境：對(duì)于每一個(gè)實(shí)例，都基于真實(shí)圖像進(jìn)行標(biāo)注，配套明確角色、特定背景、任務(wù)指令與額外要求四部分共同組成問(wèn)題。同時(shí)，相較于其他廣泛使用的多模態(tài)評(píng)測(cè)基準(zhǔn)，Creation-MMBench 具有更全面和復(fù)雜的問(wèn)題設(shè)計(jì)，大多數(shù)問(wèn)題的長(zhǎng)度超過(guò) 500 個(gè)詞元，這有助于模型捕捉更豐富的創(chuàng)意上下文。

2. 雙重評(píng)估體系：拒絕“主觀臆斷”，量化創(chuàng)意質(zhì)量

在評(píng)估策略上，團(tuán)隊(duì)選擇了使用多模態(tài)大模型作為評(píng)判模型，同時(shí)使用兩個(gè)不同指標(biāo)進(jìn)行雙重評(píng)估。

視覺(jué)事實(shí)性評(píng)分（VFS）：確保模型不是“瞎編”—— 必須讀懂圖像細(xì)節(jié)。

對(duì)于部分實(shí)例，需要首先對(duì)模型對(duì)圖像的基礎(chǔ)理解能力進(jìn)行評(píng)估，以避免胡亂創(chuàng)作騙得高分。團(tuán)隊(duì)對(duì)這類實(shí)例逐個(gè)制定了視覺(jué)事實(shí)性標(biāo)準(zhǔn)，對(duì)圖片關(guān)鍵細(xì)節(jié)進(jìn)行嚴(yán)卡，按點(diǎn)打分。

創(chuàng)意獎(jiǎng)勵(lì)分（Reward）：不僅看懂圖，更得寫得好、寫得巧！

除了基礎(chǔ)理解能力外，Creation-MMBench 更注重考察的是模型結(jié)合視覺(jué)內(nèi)容的創(chuàng)造性能力與表述能力。因?yàn)槊總€(gè)實(shí)例的角色、背景、任務(wù)指令與額外要求均存在不同，因此團(tuán)隊(duì)成員對(duì)每個(gè)實(shí)例制定了貼合的評(píng)判標(biāo)準(zhǔn)，從表達(dá)流暢性、邏輯連貫性到創(chuàng)意新穎性等多方面進(jìn)行評(píng)價(jià)。

此外，為了確保評(píng)判的公正性和一致性，GPT-4o 作為評(píng)判模型，會(huì)充分結(jié)合評(píng)判標(biāo)準(zhǔn)、畫面內(nèi)容、模型回復(fù)等內(nèi)容，在雙向評(píng)判（即評(píng)估過(guò)程中對(duì)兩個(gè)模型位置進(jìn)行互換，避免評(píng)估偏差）下給出模型回復(fù)與參考答案（非標(biāo)準(zhǔn)答案）的相對(duì)偏好。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

為了驗(yàn)證評(píng)判模型和采用的評(píng)判策略的可靠性，團(tuán)隊(duì)招募了志愿者對(duì) 13% 的樣本進(jìn)行人工評(píng)估，結(jié)果如上圖所示。相較于其他評(píng)判模型，GPT-4o 展現(xiàn)出了更強(qiáng)的人類偏好一致性，同時(shí)也證明了雙向評(píng)判的必要性。

實(shí)驗(yàn)結(jié)果：開(kāi)源 vs 閉源，誰(shuí)才是創(chuàng)意王者？！

團(tuán)隊(duì)基于 VLMEvalKit 工具鏈，對(duì) 20 多個(gè)主流 MLLMs 進(jìn)行了全面評(píng)估，包括 GPT-4o、Gemini 系列、Claude 3.5，以及 Qwen2.5-VL、InternVL 等開(kāi)源模型。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

整體而言，與 GPT-4o 相比，Gemini-2.0-Pro 展現(xiàn)出了更為出眾的多模態(tài)創(chuàng)意性寫作能力，在部分任務(wù)如日常功能性寫作上能有效的整合圖像生成貼合日常生活的內(nèi)容。

它強(qiáng)大的先驗(yàn)知識(shí)也在專業(yè)功能性寫作上極大的幫助了它，但對(duì)于部分細(xì)粒度視覺(jué)內(nèi)容理解上，仍與 GPT-4o 存在不小的差距。

令人驚訝的是，主打創(chuàng)意寫作的 GPT-4.5 的整體表現(xiàn)卻弱于 Gemini-pro 和 GPT-4o，但在多模態(tài)內(nèi)容理解及創(chuàng)作任務(wù)上展現(xiàn)出了較為出眾的能力。

開(kāi)源模型如 Qwen2.5-VL-72B，InternVL2.5-78B-MPO 等也展現(xiàn)出了與閉源模型可以匹敵的創(chuàng)作能力，但整體而言仍與閉源模型存在一定差距。

從類別上表現(xiàn)來(lái)看，專業(yè)功能性寫作由于對(duì)專業(yè)性知識(shí)的需求高、對(duì)視覺(jué)內(nèi)容的理解要求深因而對(duì)模型的問(wèn)題難度較大，而日常功能性寫作由于貼近日常社交生活，情境和視覺(jué)內(nèi)容相對(duì)簡(jiǎn)單，因而整體表現(xiàn)相對(duì)較弱的模型也能有良好的表現(xiàn)。盡管大多數(shù)模型在多模態(tài)理解與創(chuàng)作這一任務(wù)類型上視覺(jué)事實(shí)性評(píng)分較高，但它們基于視覺(jué)內(nèi)容的再創(chuàng)作仍然存在一定瓶頸。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

為了更好地比較模型的客觀性能與其視覺(jué)創(chuàng)造力，團(tuán)隊(duì)使用 OpenCompass 多模態(tài)評(píng)測(cè)榜單的平均分來(lái)表示整體客觀性能。

如上圖所示，部分模型盡管在客觀性能上表現(xiàn)強(qiáng)勁，但在開(kāi)放式視覺(jué)創(chuàng)造力任務(wù)中卻表現(xiàn)不佳。這些模型往往在有明確答案的任務(wù)中表現(xiàn)出色，但在生成具有創(chuàng)造性和情境相關(guān)的內(nèi)容方面卻顯得不足。這種差異說(shuō)明傳統(tǒng)的客觀指標(biāo)可能無(wú)法完全捕捉模型在復(fù)雜現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造能力，因而證明了 Creation-MMBench 填補(bǔ)這一領(lǐng)域的重要性。

進(jìn)一步探索：視覺(jué)微調(diào)是把雙刃劍

當(dāng)前大語(yǔ)言模型的創(chuàng)作能力評(píng)判基準(zhǔn)多集中于特定主題（如生成科研 idea），相對(duì)較為單一且未能揭示 LLM 在多種不同日常場(chǎng)景中的創(chuàng)作能力。

因此團(tuán)隊(duì)使用 GPT-4o 對(duì)圖像內(nèi)容進(jìn)行細(xì)致描述，構(gòu)建了純文本的 Creation-MMBench-TO。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

從純語(yǔ)言模型的評(píng)測(cè)結(jié)果來(lái)看，閉源 LLM 的創(chuàng)作能力略優(yōu)于開(kāi)源的 LLMs，令人驚訝的是，GPT-4o 在 Creation-MMBench-TO 上的創(chuàng)意獎(jiǎng)勵(lì)分更高。這可能是因?yàn)樵撃Ｐ湍軌蛟诿枋龅膸椭赂鼘Ｗ⒂诎l(fā)散思維和自由創(chuàng)作，從而減少基本視覺(jué)內(nèi)容理解對(duì)創(chuàng)造力的負(fù)面影響。

同時(shí)為了進(jìn)一步調(diào)查視覺(jué)指令微調(diào)對(duì) LLM 的影響，團(tuán)隊(duì)進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果表明，經(jīng)過(guò)視覺(jué)指令微調(diào)的開(kāi)源多模態(tài)大模型在 Creation-MMBench-TO 上的表現(xiàn)始終低于相應(yīng)的語(yǔ)言基座模型。

這可能是由于微調(diào)過(guò)程中使用的問(wèn)答對(duì)長(zhǎng)度相對(duì)有限，限制了模型理解較長(zhǎng)文本中詳細(xì)內(nèi)容的能力，進(jìn)而無(wú)法代入情境進(jìn)行長(zhǎng)文本創(chuàng)作，從而導(dǎo)致視覺(jué)事實(shí)性評(píng)分和創(chuàng)意獎(jiǎng)勵(lì)分均相對(duì)較低。

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

團(tuán)隊(duì)同樣還對(duì)部分模型進(jìn)行了定性研究，如上圖所示。任務(wù)類型為軟件工程圖像解釋，從屬于專業(yè)功能性寫作。

結(jié)果顯示，Qwen2.5-VL 由于對(duì)特定領(lǐng)域知識(shí)理解不足，將泳道圖誤判為數(shù)據(jù)流圖，從而導(dǎo)致后續(xù)的圖表分析錯(cuò)誤。

相比之下，GPT-4o 有效避免了這個(gè)錯(cuò)誤，其整體語(yǔ)言更加專業(yè)和結(jié)構(gòu)化，展示了對(duì)圖表更準(zhǔn)確和詳細(xì)的解釋，從而獲得了評(píng)審模型的青睞。

這個(gè)例子也反映了特定學(xué)科知識(shí)和對(duì)圖像內(nèi)容的詳細(xì)理解在這一類任務(wù)中的重要作用，表現(xiàn)出了開(kāi)源模型和閉源模型間仍存在一定差距。

總結(jié)：

Creation-MMBench 是一個(gè)新穎的基準(zhǔn)，旨在評(píng)估多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中的創(chuàng)作能力。該基準(zhǔn)包含 765 個(gè)實(shí)例，涵蓋 51 個(gè)詳細(xì)任務(wù)。

對(duì)于每個(gè)實(shí)例，他們撰寫了對(duì)應(yīng)的評(píng)判標(biāo)準(zhǔn)，以評(píng)估模型回復(fù)的質(zhì)量和視覺(jué)事實(shí)性。

此外，團(tuán)隊(duì)通過(guò)用相應(yīng)的文本描述替換圖像輸入，創(chuàng)建了一個(gè)僅文本版本 Creation-MMBench-TO。對(duì)這兩個(gè)基準(zhǔn)的實(shí)驗(yàn)全面的評(píng)估了主流多模態(tài)大模型的創(chuàng)作能力，并探查出了視覺(jué)指令微調(diào)對(duì)模型的潛在負(fù)面影響。

Creation-MMBench 現(xiàn)已集成至 VLMEvalKit，支持一鍵評(píng)測(cè)，完整評(píng)估你的模型在創(chuàng)意任務(wù)中的表現(xiàn)。想知道你的模型能不能講好一個(gè)圖像里的故事？

來(lái)試試 Creation-MMBench 一鍵跑分，用數(shù)據(jù)說(shuō)話。

Paper：https://arxiv.org/abs/2503.14478
Github：https://github.com/open-compass/Creation-MMBench
HomePage：https://open-compass.github.io/Creation-MMBench/

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：上海 AI Lab 團(tuán)隊(duì)，原標(biāo)題《GPT-4.5 創(chuàng)造力比 GPT-4o 弱！浙大上海 AI Lab 發(fā)布新基準(zhǔn)，尋找多模態(tài)創(chuàng)造力天花板》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

為何我們要關(guān)注“視覺(jué)創(chuàng)造智能”？

Creation-MMBench 有多硬核？

1. 真實(shí)場(chǎng)景 × 多模態(tài)融合：從“紙上談兵”到“實(shí)戰(zhàn)演練”

2. 雙重評(píng)估體系：拒絕“主觀臆斷”，量化創(chuàng)意質(zhì)量

實(shí)驗(yàn)結(jié)果：開(kāi)源 vs 閉源，誰(shuí)才是創(chuàng)意王者？！

進(jìn)一步探索：視覺(jué)微調(diào)是把雙刃劍

總結(jié)：

相關(guān)文章

GPT-4.5 創(chuàng)造力比 GPT-4o 弱，浙大上海 AI Lab 發(fā)布全球首個(gè)面向真實(shí)場(chǎng)景的多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)

Creation-MMBench 有多硬核？

實(shí)驗(yàn)結(jié)果：開(kāi)源 vs 閉源，誰(shuí)才是創(chuàng)意王者？！