設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-4o mini 登頂大模型競(jìng)技場(chǎng),OpenAI 阿爾特曼:兩個(gè)月內(nèi)微調(diào)免費(fèi)

量子位 2024/7/24 12:34:19 責(zé)編:問(wèn)舟

剛剛,GPT-4o mini 版迎來(lái)“高光時(shí)刻”—— 登頂了 lmsys 大模型競(jìng)技場(chǎng),和滿血版并列第一,還把 Claude 3.5 甩在了身后。

不同于一般的數(shù)據(jù)集測(cè)評(píng),大模型競(jìng)技場(chǎng)是用戶自己出題、用腳投票的結(jié)果,無(wú)法通過(guò)“刷題”來(lái)走捷徑,因此更為真實(shí)。這個(gè)成績(jī)一出,連 CEO 阿爾特曼都激動(dòng)起來(lái)了:

面對(duì)評(píng)估成績(jī),我們本來(lái)是盡量矜持的,但是看到 GPT-4o mini 表現(xiàn)和滿血版一樣,價(jià)格卻只有 1/20,內(nèi)心還是很激動(dòng)。

網(wǎng)友看到之后表示 OK,但更關(guān)心的還是 GPT-4o 發(fā)布會(huì)上演示的“Her”到底啥時(shí)候上線。

與此同時(shí),OpenAI 也送來(lái)了另一個(gè)好消息,將為開發(fā)者送出福利 ——GPT-4o mini 的微調(diào)將逐步開放,目前已開放給 tier 4 和 tier 5 用戶,然后會(huì)陸續(xù)擴(kuò)展范圍。而且從即日起到 9 月 23 號(hào),每天都能免費(fèi)使用 2 百萬(wàn)的訓(xùn)練 token。

mini 與滿血版平起平坐

經(jīng)過(guò) 80 多款模型上百萬(wàn)輪的 1v1 比拼,GPT-4o mini 在 lmsys 榜單上的成績(jī)與滿血版只差 7 分。按照 lmsys 榜單的排法,這 7 分的差距沒(méi)有影響名次,把兩個(gè)型號(hào)算作了并列第一。

緊隨其后的是 Claude 3.5 和 Gemini 家族,還有 GPT-4 的另外兩個(gè)版本。

如果我們查看 GPT-4o mini 的原始數(shù)據(jù),會(huì)發(fā)現(xiàn)它 0.6 的平均勝率僅次于滿血版本。

單獨(dú)看兩者比拼的結(jié)果,同樣是打得不相上下。

之所以 lmsys 的成績(jī)受到關(guān)注,在于它擁有一套獨(dú)特的比拼方式 —— 不用數(shù)據(jù)集,而是讓用戶自己出題,隨機(jī)拉兩個(gè)模型 1 對(duì) 1battle,然后選擇哪個(gè)模型表現(xiàn)更好。

在給出選擇之前,模型是匿名的,用戶也不知道是哪兩個(gè)模型正在比拼,如果模型自己說(shuō)漏嘴則投票無(wú)效。

這樣得到的分?jǐn)?shù)更加真實(shí),既避免了“刷題”獲取虛高分?jǐn)?shù)的可能,也更加接近用戶體驗(yàn)。這個(gè)大模型競(jìng)技場(chǎng),最近還登上了機(jī)器學(xué)習(xí)頂會(huì) ICML2024。

而且,lmsys 的評(píng)測(cè)也非常受 OpenAI 的青睞,GPT-4o mini 正式上線之前的早期版本,就曾化名為 gpt-mini 在其中打榜。當(dāng)時(shí)就已經(jīng)排行第 4,和 GPT4-Turbo 處在同一水平。

更早一些,GPT-4o 上線之前也是化名 gpt2-chatbot,在 lmsys 上搞起了測(cè)試。

不過(guò)也有人提出質(zhì)疑,表示雖然 GPT-4o mini 表現(xiàn)確實(shí)很好,但是要說(shuō)它超過(guò)了 Claude 3.5 sonnet 就有些言過(guò)其實(shí)了。

有人更是直言,lmsys 方法的完善性已經(jīng)開始瓦解,需要做出改變,否則將不再是一個(gè)有用的測(cè)試基準(zhǔn)。

“小模型”也卷起來(lái)了

mini 版本的推出,主打的就是一個(gè)性價(jià)比。每百萬(wàn)輸入 / 輸出 tokens,價(jià)格分別為 15 美分和 60 美分(約 1.09/4.36 人民幣),甚至還不到 3.5 Turbo 的一半。

如果和兩年前 GPT-3 的 text-davinci-003 版(當(dāng)時(shí)最好的模型)相比,價(jià)格更是下降了 99%。

而且除了把小模型開放給用戶,OpenAI 還搞出了新鮮玩法 —— 在“超級(jí)對(duì)齊”團(tuán)隊(duì)的一篇遺作中,使用了參數(shù)量為大模型千分之一或百分之一的小模型,來(lái)對(duì)大模型進(jìn)行優(yōu)化。

實(shí)驗(yàn)中,大小兩個(gè)模型相互“博弈”,大模型需要不斷優(yōu)化調(diào)整自己的輸出,讓小模型相信自己說(shuō)的是真話。

在這個(gè)“博弈”的過(guò)程中,大模型的能力得到了提升,在精度沒(méi)有明顯損失的情況下獲得了大幅度的可理解性提升。

除了 OpenAI,其他公司也都紛紛搞起了小模型。比如在 GPT-4o mini 之前,谷歌和 Anthropic 就分別推出了 Gemini Flash 和 Claude 3-Haiku。

甚至可以說(shuō),GPT-4o mini 就是 OpenAI 對(duì)兩家的反擊,無(wú)論是性能還是價(jià)格都超越了這兩個(gè)模型。

在 GPT-4o mini 發(fā)布的同一周,抱抱臉 Hugging Face,以及“歐洲 OpenAI”Mistral 都相繼推出了小號(hào)模型。甚至蘋果也推出了自己的 7B 模型,而且一次性開源了全部訓(xùn)練過(guò)程和資源。

總之,在性能足以滿足使用需求的前提下,小模型無(wú)疑是一種更經(jīng)濟(jì)實(shí)惠的選擇。同時(shí),更小的規(guī)模也意味著有可能在端側(cè)運(yùn)行,在隱私保護(hù)等方面顯現(xiàn)出優(yōu)勢(shì)。

這樣就不難理解,“小”模型為什么也越來(lái)越卷了。

參考鏈接:

  • [1]https://x.com/sama/status/1815877987696533897/

  • [2]https://x.com/OpenAIDevs/status/1815836887631946015

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI, ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知