OpenAI 曾秘密測(cè)試 GPT-4o，力壓群雄登頂聊天機(jī)器人競(jìng)技場(chǎng)排行榜

2024/5/14 18:24:44 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 5 月 14 日消息，OpenAI 員工 William Fedus 周一在社交平臺(tái) X 證實(shí)，近期在 LMSYS 聊天機(jī)器人競(jìng)技場(chǎng) (Chatbot Arena) 上表現(xiàn)優(yōu)異的神秘聊天機(jī)器人“gpt-chatbot”，正是他們剛剛發(fā)布的全新人工智能模型 GPT-4o。Fedus 還透露，GPT-4o 在測(cè)試中登頂了競(jìng)技場(chǎng)排行榜，取得了有史以來的最高分。

“GPT-4o 是我們最先進(jìn)的尖端模型，”Fedus 在推特上寫道，“我們一直在競(jìng)技場(chǎng)使用‘im-also-a-good-gpt2-chatbot’的名稱測(cè)試該模型的一個(gè)版本?！?/p>

OpenAI 曾秘密測(cè)試 GPT-4o，力壓群雄登頂聊天機(jī)器人競(jìng)技場(chǎng)排行榜

聊天機(jī)器人競(jìng)技場(chǎng)是一個(gè)網(wǎng)站，訪客可以同時(shí)與兩個(gè)隨機(jī)的 AI 語言模型對(duì)話，卻不知道哪個(gè)是哪個(gè)，然后選擇提供更好回復(fù)的模型。

從今年 4 月份開始，OpenAI 在競(jìng)技場(chǎng)測(cè)試了多個(gè)版本的 GPT-4o，該模型最初以“gpt2-chatbot” 的名稱出現(xiàn)，然后變成了“im-a-good-gpt2-chatbot”，最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日發(fā)布以來，多方消息人士透露，該模型以巨大優(yōu)勢(shì)登頂了 LMSYS 的內(nèi)部排行榜，超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org 的官方賬號(hào)分享了一張圖表，并寫道：“‘gpt2-chatbot’系列模型剛剛飆升至榜首，以顯著的優(yōu)勢(shì)（約 50 Elo）超越了所有其他模型，它已經(jīng)成為競(jìng)技場(chǎng)中最強(qiáng)大的模型。這是一張內(nèi)部截圖，公開版本的‘gpt-4o’現(xiàn)已進(jìn)入競(jìng)技場(chǎng)，并很快將出現(xiàn)在公開排行榜上！”

OpenAI 曾秘密測(cè)試 GPT-4o，力壓群雄登頂聊天機(jī)器人競(jìng)技場(chǎng)排行榜

截至IT之家發(fā)稿時(shí)，“im-also-a-good-gpt2-chatbot” 的 Elo 分?jǐn)?shù)為 1309，領(lǐng)先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三個(gè)“gpt2-chatbot” 出現(xiàn)并攪局之前，Claude 3 和 GPT-4 Turbo 一直在排行榜上爭(zhēng)奪冠軍。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI 曾秘密測(cè)試 GPT-4o，力壓群雄登頂聊天機(jī)器人競(jìng)技場(chǎng)排行榜

相關(guān)文章