首頁 > 智能時代>人工智能

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

量子位 2024/11/21 12:22:51 責編：汪淼

評論：

OpenAI 開發(fā)者日新加坡站今天啟幕，果不其然，ChatGPT 又出手了：

Gemini 剛在競技場頭把交椅上坐了不到一周，最新版 ChatGPT 輕輕一更新，第一再次易主。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

對，還不是 o1 滿血版，而是新版 4o。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

具體來說，此番 GPT-4o 更新的是“創(chuàng)意寫作能力”，官方說法是：

模型能完成更自然、更有吸引力、更具針對性的寫作，文本相關(guān)性和可讀性更強。
還可以更好地處理上傳的文件，提供更深入的見解和更全面的響應。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

o1 核心貢獻者 Karina Nguyen 對此做了進一步解釋：

作為 Canvas 功能的一部分，我們希望改進寫作，因為這是一個頂級用例，并且可能會改變?nèi)藱C協(xié)作的方式，來更具創(chuàng)造性地完成寫作任務。
我認為我們還沒有完全解決這個研究問題，因為它非常主觀且開放，但至少在寫作方面取得進展，是 AGI 創(chuàng)造性智能的關(guān)鍵。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

而在大模型競技場的創(chuàng)意寫作分榜上，可以看到新版 4o（ChatGPT-4o-1120）確實有明顯的提升，分數(shù)從上個版本的 1365 提升到了 1402。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

至于實際效果，我們簡單測試了一下，看看你能給打個幾分：

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

重返第一，但 4o

除了在總榜上為 OpenAI 重奪第一，新版 4o 在體現(xiàn)具體能力的各個分榜上亦有提升。

在創(chuàng)意寫作方面，從第 2 位升至第 1 位；
在代碼能力方面，從第 2 位升至第 1 位；
在數(shù)學能力方面，從第 4 位升至第 3 位（第 1 還是 o1-preview）；
在困難任務方面，從第 2 位升至第 1 位。
并且在風格控制（Style Control）之后，新版 4o 依然位居首位。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

風格控制旨在讓榜單分數(shù)更真實地反映模型解決問題的能力，避免模型靠漂亮的格式、增加回答長度刷分。

總勝率熱圖顯示，新版 4o 對上此前登頂?shù)?Gemini-Exp-1114，勝率為 59%；對上 Claude 3.5 Sonnet，勝率為 69%；對上 5 月版本的 4o，更是在 72% 的情況下都能取勝。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

嗯，看上去很強很不錯，但還是那句話…… 是 4o。

結(jié)合今日份 DeepSeek 的大新聞 —— DeepSeek 版 o1 滿血上線，還計劃開源，不少網(wǎng)友直接在阿爾特曼“新的好模型來了”的推文下貼臉嘲諷起來：

可不是嘛，deepseek 挺好。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

快把 o1 放出來，跟 deepseek-r1 正面比較一下:)

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

簡而言之就是：o1 滿血版今年上線傳得滿城風雨，現(xiàn)在 2024 年都只剩下 40 幾天了，OpenAI 你暗搓搓更新個 4o 是鬧哪樣！

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

還有人試圖總結(jié) OpenAI 的更新模式：

OpenAI 的老伙計們怕不是寫了個腳本，用來查詢大模型競技場排名第一的模型。
當返回值不是 OpenAI 的模型時，他們就部署個新版本來拿回第一。

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

嗯，才不管你期待的是什么呢╭(╯^╰)╮

另外，還有網(wǎng)友拿新 4o 的生成結(jié)果去做了測試，結(jié)果系統(tǒng)還是當場判斷出了 100% AI 寫的：

圖源 ??@TuhinChakr

不過，一片吐槽聲中，也有人認真研究了一下 OpenAI 的更新。

比如，在系統(tǒng)提示詞方面，大佬發(fā)現(xiàn)，OpenAI 確實偷偷給 ChatGPT 加了點料的：

## guardian_tool
Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).
Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:
```python
get_policy(category:str) -> str
```
The guardian tool should be triggered before other tools. DO NOT explain yourself.
“””

簡單來說，就是新增了一道護欄，確保 ChatGPT 不在敏感話題上胡說八道。

那么，如果你想試試新版 4o 具體能寫出什么“創(chuàng)意”內(nèi)容，現(xiàn)在可以到競技場免費試試：

https://lmarena.ai/?leaderboard

有什么好玩的結(jié)果，歡迎回評論區(qū)分享給大伙兒~

參考鏈接：

[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269

本文來自微信公眾號：量子位（ID：QbitAI），作者：魚羊，原標題《OpenAI 重奪競技場第一，但這波靠的是 4o》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI 重奪競技場第一：ChatGPT-4o 登頂，擊敗谷歌 Gemini

重返第一，但 4o

相關(guān)文章