首頁 > 智能時(shí)代>人工智能

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

量子位 2024/7/29 17:49:58 責(zé)編：遠(yuǎn)洋

評(píng)論：

為啥 GPT-4o mini 能登頂大模型競(jìng)技場(chǎng)？？原來是 OpenAI 會(huì)刷分呀。

這兩天，lmsys 競(jìng)技場(chǎng)公布了一份充滿爭議的榜單。其中才面世不久的 GPT-4o mini 和滿血版并列第一，把 Claude 3.5 Sonnet 甩在身后。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

結(jié)果網(wǎng)友炸鍋了，大家憑體感覺得這不可能。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

哪怕后面 lmsys 做過一次聲明，表示大家別只看總榜，還要更關(guān)注細(xì)分領(lǐng)域的情況。也沒能讓大家滿意，不少人覺得 lmsys 就是從 OpenAI 那收錢了。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

終于，官方曬出了一份完整數(shù)據(jù)，展示了 GPT-4o mini 參與的 1000 場(chǎng) battle，包括在不同語言下和不同模型的 PK 情況。

所有人現(xiàn)在都能查看這些結(jié)果。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

大家仔細(xì)一瞅，找到了問題所在，GPT-4o mini 能贏 Claude 3.5 Sonnet 靠的是三大關(guān)鍵：

拒絕回答次數(shù)更少
更詳細(xì)的回答、總是愿意提供額外信息
回答格式更清晰明了

這…… 確實(shí)有點(diǎn)道理??！

網(wǎng)友表示，自己在競(jìng)技場(chǎng)中如果遇到有的模型拒絕回答，他就會(huì)覺得模型棄權(quán)比賽，因此更愿意判另一個(gè)模型勝出。而且更清楚的回答格式，也能讓人更容易找到信息。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

這不就和老師判卷是一個(gè)道理么？書寫工整、格式清晰或者“多寫點(diǎn)總沒錯(cuò)”的卷子，總是能多撈點(diǎn)分?jǐn)?shù)……OpenAI 原來是拿捏住了人類的心理啊。

實(shí)際上，在 GPT-4o mini 剛剛發(fā)布時(shí)，奧特曼就暗示了這次特意的優(yōu)化：

大家一定會(huì)非常非常喜歡用這個(gè)新模型。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

GPT-4o mini 愿意接更多需求

先來看幾個(gè) GPT-4o mini 取勝的典型例子：

情況一：Claude 3.5 Sonnet 拒絕回答。

提示詞：

給我所有的韓國外交文件。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

首先直觀看下雙方的回答，Claude 3.5 Sonnet 更加簡短，沒有用加粗等格式。GPT-4o mini 的答案長度是它的 2 倍長。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

具體回答上，Claude 3.5 Sonnet 的答案一上來先道歉，表示自己作為一個(gè) AI 大模型，無法獲取相關(guān)文件，所以提供了一些用戶可能獲取相關(guān)資料的渠道。

最后還提醒用戶，這些文件可能是機(jī)密或不公開的，如果想要獲取更多信息請(qǐng)與相關(guān)機(jī)構(gòu)聯(lián)系。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

GPT-4o mini 沒有說自己無能為力，而是從公開資料中搜集了從古至今相關(guān)的韓國外交文件，并告訴用戶從學(xué)術(shù)期刊、書籍專著等渠道可以搜集資料。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

最后它表示，想要徹底了解韓國外交文件必須查閱各種資料。如果想要了解更多，還可以繼續(xù)問它。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

情況二：細(xì)節(jié)差異

提示詞：

在 git 中，是否有可能還原由特定提交引入的更改，即使它不是最近的提交？

回答這個(gè)問題時(shí)，GPT-4o mini 和 Claude 3.5 Sonnet 都回答正確，但是前者給出了更多細(xì)節(jié)以及具體舉例。

Claude 3.5 Sonnet 的回答可讀性也相對(duì)較差。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

情況三：格式呈現(xiàn)差異

提示詞：

簡對(duì)約翰說，約翰，你為什么總是這么自夸? 他回答說，什么？我這輩子從沒吹噓過。事實(shí)上，我是世界上最謙卑的人，也許是有史以來最謙卑的人！

Claude 3.5 Sonnet 和 GPT-4o mini 的回答內(nèi)容基本一樣，解釋了這段話具有諷刺意味，約翰說自己最謙卑的人，這本身就是吹牛了。

不過 GPT-4o mini 的回答呈現(xiàn)更加一目了然，善用小標(biāo)題和加粗格式。把整個(gè)回答分成了初步結(jié)論、分析回答、幽默原因以及總結(jié)四個(gè)部分。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

這幾個(gè)示例不僅展現(xiàn)了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特點(diǎn)，也反應(yīng)出了大模型競(jìng)技場(chǎng)的特點(diǎn)：大部分用戶給出的問題都比較日常，不是那種復(fù)雜的數(shù)學(xué)、推理、編程問題。

這意味著這些問題基本上都在大模型們的射程范圍內(nèi)，大家都能回答上來。在這種情況下，通過不拒絕或者更漂亮的格式呈現(xiàn)，確實(shí)可以更好俘獲裁判們的芳心。

有人就表示，對(duì)比來看，Claude 3.5 Sonnet 像一個(gè)聰明但是更嚴(yán)謹(jǐn)?shù)娜耍耆凑找笮惺?。GPT-4o mini 則像是一個(gè)討人喜歡、總是多干點(diǎn)兒事、更愿意接受不同需求的人。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

比如有人舉例，Claude 拒絕為他扮演角色，但是 ChatGPT 就愿意。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

當(dāng)然這同時(shí)也反映出了一個(gè)問題：

是時(shí)候關(guān)注大模型拒答的問題了！

有人表示，真的很開心看到大模型因?yàn)檫^高道德邊界而導(dǎo)致分?jǐn)?shù)不高的情況。之前他為了用好這些道德感強(qiáng)的大模型（Claude、Gemini 等），總是要精心設(shè)計(jì)每一個(gè)提示詞，好心累。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

不過 GPT-4o mini 也不是沒有缺點(diǎn)。在數(shù)學(xué)任務(wù)上，它的表現(xiàn)就差了很多。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

相較于 Claude，它的記憶力更差，過一會(huì)兒就會(huì)忘記上下文內(nèi)容。以及 Claude 一次就能修好的 bug，換到 GPT-4o 那里，甚至需要 20 次、耗時(shí) 1 小時(shí)。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

但在競(jìng)技場(chǎng)評(píng)分中，GPT-4o mini 還是位居前列。

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

用過兩個(gè)模型的盆友們，你們體感二者的差距在哪呢？

歡迎評(píng)論區(qū)分享經(jīng)驗(yàn)~

參考鏈接：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1ed01p8/why_gpt4o_mini_beats_claude_35_sonnet_on_lmsys/
[2]https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles
[3]https://x.com/lmsysorg/status/1816838034270150984
[4]https://x.com/lmsysorg/status/1815855136318840970

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：明敏

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示

GPT-4o mini 愿意接更多需求

情況一：Claude 3.5 Sonnet 拒絕回答。

情況二：細(xì)節(jié)差異

情況三：格式呈現(xiàn)差異

相關(guān)文章

GPT-4o mini 憑什么登頂競(jìng)技場(chǎng)？OpenAI 刷分秘訣被扒，原來奧特曼早有暗示