剛剛,GPT-4o mini 版迎來“高光時(shí)刻”—— 登頂了 lmsys 大模型競(jìng)技場(chǎng),和滿血版并列第一,還把 Claude 3.5 甩在了身后。
不同于一般的數(shù)據(jù)集測(cè)評(píng),大模型競(jìng)技場(chǎng)是用戶自己出題、用腳投票的結(jié)果,無法通過“刷題”來走捷徑,因此更為真實(shí)。這個(gè)成績(jī)一出,連 CEO 阿爾特曼都激動(dòng)起來了:
面對(duì)評(píng)估成績(jī),我們本來是盡量矜持的,但是看到 GPT-4o mini 表現(xiàn)和滿血版一樣,價(jià)格卻只有 1/20,內(nèi)心還是很激動(dòng)。
網(wǎng)友看到之后表示 OK,但更關(guān)心的還是 GPT-4o 發(fā)布會(huì)上演示的“Her”到底啥時(shí)候上線。
與此同時(shí),OpenAI 也送來了另一個(gè)好消息,將為開發(fā)者送出福利 ——GPT-4o mini 的微調(diào)將逐步開放,目前已開放給 tier 4 和 tier 5 用戶,然后會(huì)陸續(xù)擴(kuò)展范圍。而且從即日起到 9 月 23 號(hào),每天都能免費(fèi)使用 2 百萬的訓(xùn)練 token。
mini 與滿血版平起平坐
經(jīng)過 80 多款模型上百萬輪的 1v1 比拼,GPT-4o mini 在 lmsys 榜單上的成績(jī)與滿血版只差 7 分。按照 lmsys 榜單的排法,這 7 分的差距沒有影響名次,把兩個(gè)型號(hào)算作了并列第一。
緊隨其后的是 Claude 3.5 和 Gemini 家族,還有 GPT-4 的另外兩個(gè)版本。
如果我們查看 GPT-4o mini 的原始數(shù)據(jù),會(huì)發(fā)現(xiàn)它 0.6 的平均勝率僅次于滿血版本。
單獨(dú)看兩者比拼的結(jié)果,同樣是打得不相上下。
之所以 lmsys 的成績(jī)受到關(guān)注,在于它擁有一套獨(dú)特的比拼方式 —— 不用數(shù)據(jù)集,而是讓用戶自己出題,隨機(jī)拉兩個(gè)模型 1 對(duì) 1battle,然后選擇哪個(gè)模型表現(xiàn)更好。
在給出選擇之前,模型是匿名的,用戶也不知道是哪兩個(gè)模型正在比拼,如果模型自己說漏嘴則投票無效。
這樣得到的分?jǐn)?shù)更加真實(shí),既避免了“刷題”獲取虛高分?jǐn)?shù)的可能,也更加接近用戶體驗(yàn)。這個(gè)大模型競(jìng)技場(chǎng),最近還登上了機(jī)器學(xué)習(xí)頂會(huì) ICML2024。
而且,lmsys 的評(píng)測(cè)也非常受 OpenAI 的青睞,GPT-4o mini 正式上線之前的早期版本,就曾化名為 gpt-mini 在其中打榜。當(dāng)時(shí)就已經(jīng)排行第 4,和 GPT4-Turbo 處在同一水平。
更早一些,GPT-4o 上線之前也是化名 gpt2-chatbot,在 lmsys 上搞起了測(cè)試。
不過也有人提出質(zhì)疑,表示雖然 GPT-4o mini 表現(xiàn)確實(shí)很好,但是要說它超過了 Claude 3.5 sonnet 就有些言過其實(shí)了。
有人更是直言,lmsys 方法的完善性已經(jīng)開始瓦解,需要做出改變,否則將不再是一個(gè)有用的測(cè)試基準(zhǔn)。
“小模型”也卷起來了
mini 版本的推出,主打的就是一個(gè)性價(jià)比。每百萬輸入 / 輸出 tokens,價(jià)格分別為 15 美分和 60 美分(約 1.09/4.36 人民幣),甚至還不到 3.5 Turbo 的一半。
如果和兩年前 GPT-3 的 text-davinci-003 版(當(dāng)時(shí)最好的模型)相比,價(jià)格更是下降了 99%。
而且除了把小模型開放給用戶,OpenAI 還搞出了新鮮玩法 —— 在“超級(jí)對(duì)齊”團(tuán)隊(duì)的一篇遺作中,使用了參數(shù)量為大模型千分之一或百分之一的小模型,來對(duì)大模型進(jìn)行優(yōu)化。
實(shí)驗(yàn)中,大小兩個(gè)模型相互“博弈”,大模型需要不斷優(yōu)化調(diào)整自己的輸出,讓小模型相信自己說的是真話。
在這個(gè)“博弈”的過程中,大模型的能力得到了提升,在精度沒有明顯損失的情況下獲得了大幅度的可理解性提升。
除了 OpenAI,其他公司也都紛紛搞起了小模型。比如在 GPT-4o mini 之前,谷歌和 Anthropic 就分別推出了 Gemini Flash 和 Claude 3-Haiku。
甚至可以說,GPT-4o mini 就是 OpenAI 對(duì)兩家的反擊,無論是性能還是價(jià)格都超越了這兩個(gè)模型。
在 GPT-4o mini 發(fā)布的同一周,抱抱臉 Hugging Face,以及“歐洲 OpenAI”Mistral 都相繼推出了小號(hào)模型。甚至蘋果也推出了自己的 7B 模型,而且一次性開源了全部訓(xùn)練過程和資源。
總之,在性能足以滿足使用需求的前提下,小模型無疑是一種更經(jīng)濟(jì)實(shí)惠的選擇。同時(shí),更小的規(guī)模也意味著有可能在端側(cè)運(yùn)行,在隱私保護(hù)等方面顯現(xiàn)出優(yōu)勢(shì)。
這樣就不難理解,“小”模型為什么也越來越卷了。
參考鏈接:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。