OpenAI 開發(fā)者日新加坡站今天啟幕,果不其然,ChatGPT 又出手了:
Gemini 剛在競(jìng)技場(chǎng)頭把交椅上坐了不到一周,最新版 ChatGPT 輕輕一更新,第一再次易主。
對(duì),還不是 o1 滿血版,而是新版 4o。
具體來說,此番 GPT-4o 更新的是“創(chuàng)意寫作能力”,官方說法是:
模型能完成更自然、更有吸引力、更具針對(duì)性的寫作,文本相關(guān)性和可讀性更強(qiáng)。
還可以更好地處理上傳的文件,提供更深入的見解和更全面的響應(yīng)。
o1 核心貢獻(xiàn)者 Karina Nguyen 對(duì)此做了進(jìn)一步解釋:
作為 Canvas 功能的一部分,我們希望改進(jìn)寫作,因?yàn)檫@是一個(gè)頂級(jí)用例,并且可能會(huì)改變?nèi)藱C(jī)協(xié)作的方式,來更具創(chuàng)造性地完成寫作任務(wù)。
我認(rèn)為我們還沒有完全解決這個(gè)研究問題,因?yàn)樗浅V饔^且開放,但至少在寫作方面取得進(jìn)展,是 AGI 創(chuàng)造性智能的關(guān)鍵。
而在大模型競(jìng)技場(chǎng)的創(chuàng)意寫作分榜上,可以看到新版 4o(ChatGPT-4o-1120)確實(shí)有明顯的提升,分?jǐn)?shù)從上個(gè)版本的 1365 提升到了 1402。
至于實(shí)際效果,我們簡(jiǎn)單測(cè)試了一下,看看你能給打個(gè)幾分:
重返第一,但 4o
除了在總榜上為 OpenAI 重奪第一,新版 4o 在體現(xiàn)具體能力的各個(gè)分榜上亦有提升。
在創(chuàng)意寫作方面,從第 2 位升至第 1 位;
在代碼能力方面,從第 2 位升至第 1 位;
在數(shù)學(xué)能力方面,從第 4 位升至第 3 位(第 1 還是 o1-preview);
在困難任務(wù)方面,從第 2 位升至第 1 位。
并且在風(fēng)格控制(Style Control)之后,新版 4o 依然位居首位。
風(fēng)格控制旨在讓榜單分?jǐn)?shù)更真實(shí)地反映模型解決問題的能力,避免模型靠漂亮的格式、增加回答長(zhǎng)度刷分。
總勝率熱圖顯示,新版 4o 對(duì)上此前登頂?shù)?Gemini-Exp-1114,勝率為 59%;對(duì)上 Claude 3.5 Sonnet,勝率為 69%;對(duì)上 5 月版本的 4o,更是在 72% 的情況下都能取勝。
嗯,看上去很強(qiáng)很不錯(cuò),但還是那句話…… 是 4o。
結(jié)合今日份 DeepSeek 的大新聞 —— DeepSeek 版 o1 滿血上線,還計(jì)劃開源,不少網(wǎng)友直接在阿爾特曼“新的好模型來了”的推文下貼臉嘲諷起來:
可不是嘛,deepseek 挺好。
快把 o1 放出來,跟 deepseek-r1 正面比較一下:)
簡(jiǎn)而言之就是:o1 滿血版今年上線傳得滿城風(fēng)雨,現(xiàn)在 2024 年都只剩下 40 幾天了,OpenAI 你暗搓搓更新個(gè) 4o 是鬧哪樣!
還有人試圖總結(jié) OpenAI 的更新模式:
OpenAI 的老伙計(jì)們怕不是寫了個(gè)腳本,用來查詢大模型競(jìng)技場(chǎng)排名第一的模型。
當(dāng)返回值不是 OpenAI 的模型時(shí),他們就部署個(gè)新版本來拿回第一。
嗯,才不管你期待的是什么呢╭(╯^╰)╮
另外,還有網(wǎng)友拿新 4o 的生成結(jié)果去做了測(cè)試,結(jié)果系統(tǒng)還是當(dāng)場(chǎng)判斷出了 100% AI 寫的:
不過,一片吐槽聲中,也有人認(rèn)真研究了一下 OpenAI 的更新。
比如,在系統(tǒng)提示詞方面,大佬發(fā)現(xiàn),OpenAI 確實(shí)偷偷給 ChatGPT 加了點(diǎn)料的:
## guardian_tool
Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).
Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:
```python
get_policy(category:str) -> str
```
The guardian tool should be triggered before other tools. DO NOT explain yourself.
“””
簡(jiǎn)單來說,就是新增了一道護(hù)欄,確保 ChatGPT 不在敏感話題上胡說八道。
那么,如果你想試試新版 4o 具體能寫出什么“創(chuàng)意”內(nèi)容,現(xiàn)在可以到競(jìng)技場(chǎng)免費(fèi)試試:
https://lmarena.ai/?leaderboard
有什么好玩的結(jié)果,歡迎回評(píng)論區(qū)分享給大伙兒~
參考鏈接:
[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269
本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:魚羊,原標(biāo)題《OpenAI 重奪競(jìng)技場(chǎng)第一,但這波靠的是 4o》
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。