GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

量子位 2024/7/24 12:34:19 責(zé)編：問舟

評(píng)論：

剛剛，GPT-4o mini 版迎來“高光時(shí)刻”—— 登頂了 lmsys 大模型競(jìng)技場(chǎng)，和滿血版并列第一，還把 Claude 3.5 甩在了身后。

不同于一般的數(shù)據(jù)集測(cè)評(píng)，大模型競(jìng)技場(chǎng)是用戶自己出題、用腳投票的結(jié)果，無法通過“刷題”來走捷徑，因此更為真實(shí)。這個(gè)成績(jī)一出，連 CEO 阿爾特曼都激動(dòng)起來了：

面對(duì)評(píng)估成績(jī)，我們本來是盡量矜持的，但是看到 GPT-4o mini 表現(xiàn)和滿血版一樣，價(jià)格卻只有 1/20，內(nèi)心還是很激動(dòng)。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

網(wǎng)友看到之后表示 OK，但更關(guān)心的還是 GPT-4o 發(fā)布會(huì)上演示的“Her”到底啥時(shí)候上線。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

與此同時(shí)，OpenAI 也送來了另一個(gè)好消息，將為開發(fā)者送出福利 ——GPT-4o mini 的微調(diào)將逐步開放，目前已開放給 tier 4 和 tier 5 用戶，然后會(huì)陸續(xù)擴(kuò)展范圍。而且從即日起到 9 月 23 號(hào)，每天都能免費(fèi)使用 2 百萬的訓(xùn)練 token。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

mini 與滿血版平起平坐

經(jīng)過 80 多款模型上百萬輪的 1v1 比拼，GPT-4o mini 在 lmsys 榜單上的成績(jī)與滿血版只差 7 分。按照 lmsys 榜單的排法，這 7 分的差距沒有影響名次，把兩個(gè)型號(hào)算作了并列第一。

緊隨其后的是 Claude 3.5 和 Gemini 家族，還有 GPT-4 的另外兩個(gè)版本。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

如果我們查看 GPT-4o mini 的原始數(shù)據(jù)，會(huì)發(fā)現(xiàn)它 0.6 的平均勝率僅次于滿血版本。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

單獨(dú)看兩者比拼的結(jié)果，同樣是打得不相上下。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

之所以 lmsys 的成績(jī)受到關(guān)注，在于它擁有一套獨(dú)特的比拼方式 —— 不用數(shù)據(jù)集，而是讓用戶自己出題，隨機(jī)拉兩個(gè)模型 1 對(duì) 1battle，然后選擇哪個(gè)模型表現(xiàn)更好。

在給出選擇之前，模型是匿名的，用戶也不知道是哪兩個(gè)模型正在比拼，如果模型自己說漏嘴則投票無效。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

這樣得到的分?jǐn)?shù)更加真實(shí)，既避免了“刷題”獲取虛高分?jǐn)?shù)的可能，也更加接近用戶體驗(yàn)。這個(gè)大模型競(jìng)技場(chǎng)，最近還登上了機(jī)器學(xué)習(xí)頂會(huì) ICML2024。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

而且，lmsys 的評(píng)測(cè)也非常受 OpenAI 的青睞，GPT-4o mini 正式上線之前的早期版本，就曾化名為 gpt-mini 在其中打榜。當(dāng)時(shí)就已經(jīng)排行第 4，和 GPT4-Turbo 處在同一水平。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

更早一些，GPT-4o 上線之前也是化名 gpt2-chatbot，在 lmsys 上搞起了測(cè)試。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

不過也有人提出質(zhì)疑，表示雖然 GPT-4o mini 表現(xiàn)確實(shí)很好，但是要說它超過了 Claude 3.5 sonnet 就有些言過其實(shí)了。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

有人更是直言，lmsys 方法的完善性已經(jīng)開始瓦解，需要做出改變，否則將不再是一個(gè)有用的測(cè)試基準(zhǔn)。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

“小模型”也卷起來了

mini 版本的推出，主打的就是一個(gè)性價(jià)比。每百萬輸入 / 輸出 tokens，價(jià)格分別為 15 美分和 60 美分（約 1.09/4.36 人民幣），甚至還不到 3.5 Turbo 的一半。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

如果和兩年前 GPT-3 的 text-davinci-003 版（當(dāng)時(shí)最好的模型）相比，價(jià)格更是下降了 99%。

而且除了把小模型開放給用戶，OpenAI 還搞出了新鮮玩法 —— 在“超級(jí)對(duì)齊”團(tuán)隊(duì)的一篇遺作中，使用了參數(shù)量為大模型千分之一或百分之一的小模型，來對(duì)大模型進(jìn)行優(yōu)化。

實(shí)驗(yàn)中，大小兩個(gè)模型相互“博弈”，大模型需要不斷優(yōu)化調(diào)整自己的輸出，讓小模型相信自己說的是真話。

在這個(gè)“博弈”的過程中，大模型的能力得到了提升，在精度沒有明顯損失的情況下獲得了大幅度的可理解性提升。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

除了 OpenAI，其他公司也都紛紛搞起了小模型。比如在 GPT-4o mini 之前，谷歌和 Anthropic 就分別推出了 Gemini Flash 和 Claude 3-Haiku。

甚至可以說，GPT-4o mini 就是 OpenAI 對(duì)兩家的反擊，無論是性能還是價(jià)格都超越了這兩個(gè)模型。

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

在 GPT-4o mini 發(fā)布的同一周，抱抱臉 Hugging Face，以及“歐洲 OpenAI”Mistral 都相繼推出了小號(hào)模型。甚至蘋果也推出了自己的 7B 模型，而且一次性開源了全部訓(xùn)練過程和資源。

總之，在性能足以滿足使用需求的前提下，小模型無疑是一種更經(jīng)濟(jì)實(shí)惠的選擇。同時(shí)，更小的規(guī)模也意味著有可能在端側(cè)運(yùn)行，在隱私保護(hù)等方面顯現(xiàn)出優(yōu)勢(shì)。

這樣就不難理解，“小”模型為什么也越來越卷了。

參考鏈接：

[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)

mini 與滿血版平起平坐

“小模型”也卷起來了

相關(guān)文章

GPT-4o mini 登頂大模型競(jìng)技場(chǎng)，OpenAI 阿爾特曼：兩個(gè)月內(nèi)微調(diào)免費(fèi)