首頁 > 科學(xué)探索>科技前沿

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

新智元 2024/1/28 15:30:48 責(zé)編：問舟

評(píng)論：

谷歌 Bard 又行了？在第三方 LLM「排位賽」排行榜上，Bard 擊敗 GPT-4 成為第二名。Jeff Dean 興奮宣布：谷歌回來了！

一夜之間，Bard 逆襲 GPT-4，性能直逼最強(qiáng) GPT-4 Turbo！這個(gè)聽起來似乎像夢里的事情，確確實(shí)實(shí)地發(fā)生了。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

就在昨天，谷歌首席 Jeff Dean 發(fā)推提前透露了谷歌的最新版模型 ——Gemini Pro-scale?；诖?，Bard 相較于 3 月份的首次亮相，不僅在表現(xiàn)上有了顯著的提升，而且還具備了更多的能力。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

可以看到，在最新的 Gemini Pro-scale 加持下，Bard 直接躥升到了排行榜第二名的位置。

一口氣把之前的兩款 GPT-4 模型斬于馬下，甚至和排名第一的 GPT-4 Turbo 的差距也非常小。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

雖然 Jeff Dean 并沒有具體闡述「scale」的含義，但從名稱上推測，很可能是一個(gè)比初代 Gemini Pro 規(guī)模更大的版本。

而根據(jù)前段時(shí)間外媒曝出的內(nèi)部郵件，搭載 Gemini Ultra 的 Bard Advanced 已經(jīng)全面開放給谷歌員工試用。也就是說，距離谷歌最強(qiáng)模型的上線，已經(jīng)不遠(yuǎn)了。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

隨著谷歌對(duì) Gemini Pro 更新后不斷大幅上漲的表現(xiàn)，也讓所有人對(duì)完全體 Gemini Ultra 的能力有了更多的期待。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

不過，新推出的 Bard 目前只接受了約 3,000 次評(píng)價(jià)，而 GPT-4 的評(píng)價(jià)次數(shù)已高達(dá) 30,000 次。因此，這個(gè)結(jié)果后續(xù)很可能還會(huì)發(fā)生變動(dòng)。

但不管怎樣，這對(duì)于谷歌來說是一項(xiàng)令人矚目的成就，也讓人對(duì)即將發(fā)布的、預(yù)期將超過 Gemini Pro-Scale 性能的最強(qiáng) AI 模型 Gemini Ultra 充滿期待。

谷歌 Bard 超越 GPT-4 躍居第二

簡單介紹一下，這個(gè)由 UC 伯克利主導(dǎo)，CMU，UCSD 等頂級(jí)高校共同參與創(chuàng)建的聊天機(jī)器人競技場「Chatbot Arena」，是學(xué)術(shù)圈內(nèi)一個(gè)很權(quán)威的大模型對(duì)話能力排行榜。

榜單通過類似 Moba 游戲中的「排位賽」機(jī)制，讓各家大模型通過 PvP 的方式來排出性能高低。

期間，用戶會(huì)與模型（不知道具體型號(hào)）進(jìn)行互動(dòng)，并選擇他們更喜歡的回答。而這些投票將會(huì)決定模型在排行榜上的名次。

這種方式能夠有效地避免很多 PvE 基準(zhǔn)測試中可能出現(xiàn)的，通過「刷題」來提高成績的問題，被業(yè)界認(rèn)為是一個(gè)比較客觀的大模型能力排行榜。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

為了便于區(qū)分，LMSYS Org 指出，目前 Gemini Pro 市面上總共有 3 個(gè)版本：

- Gemini Pro API：用戶可以通過谷歌云的 Vertex AI API 進(jìn)行訪問

- Gemini Pro（dev）API：開發(fā)者 API 可以通過谷歌 AI Studio 進(jìn)行訪問

- Bard（1 月 24 日更新的 Gemini Pro）：是目前唯一可以訪問到 1 月 24 日更新的 Gemini Pro 的方式

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

同時(shí)，谷歌 Bard 項(xiàng)目的高級(jí)總監(jiān) Sadovsky 也透露，排行榜上的 Bard 和 Gemini Pro（API）是兩個(gè)在微調(diào)層面不同的模型，而且 Bard 可以檢索互聯(lián)網(wǎng)上的信息。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

在 ChatBot Arena 中，1 月 24 號(hào)更新的 Bard 由于支持檢索互聯(lián)網(wǎng)，相比于之前放出的 Gemini Pro（API）對(duì)于實(shí)時(shí)信息問題的回復(fù)提升巨大。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

從谷歌的這波更新可以看出，Gemini Pro 的潛力似乎遠(yuǎn)遠(yuǎn)沒有被完全釋放，希望谷歌能再接再厲，對(duì) OpenAI 一家獨(dú)大的格局形成挑戰(zhàn)。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

以下是 1 月 14 號(hào)更新的 Bard 在 ChatBot Arena 中的成績的明細(xì)：

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

模型 A 相對(duì)于模型 B 在所有非平局對(duì)決中獲勝的比例

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

不同模型組合間對(duì)決的次數(shù)統(tǒng)計(jì)（排除平局情況）

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

通過 1000 輪隨機(jī)抽樣對(duì) Elo 評(píng)分進(jìn)行的自舉法（Bootstrap）估計(jì)

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

在假設(shè)等概率抽樣和不存在平局的情況下，相對(duì)于所有其他模型的平均勝率

Elo 評(píng)分系統(tǒng)

Elo 等級(jí)分制度（Elo rating system）是一種計(jì)算玩家相對(duì)技能水平的方法，廣泛應(yīng)用在競技游戲和各類運(yùn)動(dòng)當(dāng)中。其中，Elo 評(píng)分越高，那么就說明這個(gè)玩家越厲害。

比如英雄聯(lián)盟、Dota 2 以及吃雞等等，系統(tǒng)給玩家進(jìn)行排名的就是這個(gè)機(jī)制。

舉個(gè)例子，當(dāng)你在英雄聯(lián)盟里面打了很多場排位賽后，就會(huì)出現(xiàn)一個(gè)隱藏分。這個(gè)隱藏分不僅決定了你的段位，也決定了你打排位時(shí)碰到的對(duì)手基本也是類似水平的。

而且，這個(gè) Elo 評(píng)分的數(shù)值是絕對(duì)的。也就是說，當(dāng)未來加入新的聊天機(jī)器人時(shí)，我們依然可以直接通過 Elo 的評(píng)分來判斷哪個(gè)聊天機(jī)器人更厲害。

具體來說，如果玩家 A 的評(píng)分為 Ra，玩家 B 的評(píng)分為 Rb，玩家 A 獲勝概率的精確公式（使用以 10 為底的 logistic 曲線）為：

然后，玩家的評(píng)分會(huì)在每場對(duì)戰(zhàn)后線性更新。

假設(shè)玩家 A（評(píng)分為 Ra）預(yù)計(jì)獲得 Ea 分，但實(shí)際獲得 Sa 分。更新該玩家評(píng)分的公式為：

網(wǎng)友熱議

對(duì)此，網(wǎng)友提問：現(xiàn)在能夠訪問的 Bard 就是這個(gè)排名第二的 Bard 了嗎？

谷歌官方回復(fù)，是的，而且現(xiàn)在訪問的 Bard 比排行榜的上的 Bard 還能支持更多的像地圖擴(kuò)展等應(yīng)用。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

不過還是有網(wǎng)友吐槽，即使在 PvP 排行榜上 Bard 已經(jīng)取得了很好的成績，但是對(duì)于理解用戶需求和解決實(shí)際問題的能力，Bard 和 GPT-4 依然還有很大差距。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

也有網(wǎng)友認(rèn)為，用能聯(lián)網(wǎng)的 Bard 和離線的 GPT-4 打有失公平。甚至，就這樣還沒打過……

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

而最有意思的，還要數(shù)網(wǎng)友在排行榜中發(fā)現(xiàn)的「華點(diǎn)」了：號(hào)稱是 GPT-4 最大競品的 Claude 居然越更新越弱了。

對(duì)此，之前有分析認(rèn)為，Anthropic 一直在大力發(fā)展的與人類對(duì)齊，會(huì)嚴(yán)重影響模型的性能。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

GPT-4 Turbo 超長上下文 A / B 測試

有趣的是，這個(gè)連 Jeff Dean 都親自下場的「刷榜」，正巧就在 OpenAI 連發(fā) 5 款新模型的第二天。

根據(jù) OpenAI 的介紹，新版 GPT-4 Turbo——gpt-4-0125-preview，不僅大幅改善了模型「偷懶」的情況，而且還極大地提升了代碼生成的能力。

不過，正如大家對(duì) Bard 的懷疑，GPT-4 這次到底有沒有變強(qiáng)也有待驗(yàn)證。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

對(duì)此，AI 公司 Smol 的創(chuàng)始人 Shawn Wang，就在超過 100k 單詞的超長上下文中，對(duì)比測試了新舊 GPT4-Turbo 的總結(jié)能力。

Wang 表示，兩次測試使用的是完全相同提示詞，以及基本相同的語料庫。

雖然沒有嚴(yán)格限制，但每個(gè)模型都進(jìn)行了超過 300 次的 API 調(diào)用，因此對(duì)于總結(jié)任務(wù)而言，這一結(jié)果還是具有一定參考價(jià)值的。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

結(jié)果顯示，2024 年 1 月的 GPT4-Turbo 花費(fèi)了 19 分鐘來生成 20,265 個(gè)單詞，相比之下，2023 年 11 月的用 16 分鐘生成了 18,884 個(gè)單詞。

也就是說，新模型的生成速度大約慢了 18%，且生成文本的長度平均偏長約 7%。

質(zhì)量方面：

- 2024 年 1 月的模型在主題選擇上略有改善，但仍存在問題

- 2023 年 11 月的模型會(huì)產(chǎn)生更多錯(cuò)誤信息

- 2024 年 1 月的模型在總結(jié)中添加小標(biāo)題的能力略有提升

- 2024 年 1 月的模型出現(xiàn)了一次嚴(yán)重的格式錯(cuò)誤，而這在之前是極為罕見的

- 2023 年 11 月的模型文本詳情更加豐富

總體而言，新版 GPT4-Turbo 在總結(jié)這一應(yīng)用場景上有所退步。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

左側(cè)：2023 年 11 月；右側(cè)：2024 年 1 月（左右滑動(dòng)查看全部）

OpenAI 最后的「開源遺作」兩周年

不得不說，AI 領(lǐng)域的發(fā)展過于迅猛，甚至讓人對(duì)時(shí)間的流速都產(chǎn)生了錯(cuò)覺。

今天，英偉達(dá)高級(jí)科學(xué)家 Jim Fan 發(fā)推紀(jì)念了 InstructGPT 發(fā)布二周年。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

在這里，OpenAI 定義了一套標(biāo)準(zhǔn)流程：預(yù)訓(xùn)練 -> 監(jiān)督式微調(diào) -> RLHF。直到今天，這依然是大家遵循的基本策略（盡管有些許變化，比如 DPO）。

它不僅僅是大語言模型從學(xué)術(shù)探索（GPT-3）到轉(zhuǎn)化為具有實(shí)際影響力的產(chǎn)品（ChatGPT）的關(guān)鍵轉(zhuǎn)折點(diǎn)，而且也是最后一篇 OpenAI 詳細(xì)說明他們?nèi)绾斡?xùn)練前沿模型的論文。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

論文地址：https://arxiv.org/ abs / 2203.02155

- InstructGPT 在 2022 年的 NeurIPS 會(huì)議上首次亮相，但它并不是 RLHF 的發(fā)明者。實(shí)際上，相關(guān)博客將讀者引向了 OpenAI 團(tuán)隊(duì)在 2017 年完成的原始 RLHF 研究。

這項(xiàng)研究最初的目的是解決模擬機(jī)器人領(lǐng)域中難以明確定義的任務(wù) —— 通過一名人類標(biāo)注者提供的 900 個(gè)二選一偏好，RLHF 讓一個(gè)簡單的「跳躍」機(jī)器人在模擬環(huán)境中學(xué)會(huì)了后空翻。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

論文地址：https://arxiv.org/ abs / 1706.03741v4

- 模型提供了三種規(guī)模：1.3B、6B、175B。與舊的、需要復(fù)雜提示設(shè)計(jì)的 GPT-3-175B 相比，標(biāo)注者明顯更喜歡 Instruct-1.3B。微軟最知名的「小模型」Phi-1 也是 1.3B。

- InstructGPT 展示了如何精彩地呈現(xiàn)研究成果。三個(gè)步驟的圖表清晰易懂，并且成為 AI 領(lǐng)域最標(biāo)志性的圖像之一。引言部分直接了當(dāng)，用粗體突出了 8 個(gè)核心觀點(diǎn)。對(duì)局限性和偏見的討論實(shí)事求是、坦誠直接。

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

參考資料：

https://twitter.com/JeffDean/status/1750930658900517157
https://twitter.com/asadovsky/status/1750983142041911412?s=20
https://twitter.com/DrJimFan/status/1751285761364906476

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌再雪前恥：新 Bard 逆襲 GPT-4 沖上 LLM 排行榜第二

谷歌 Bard 超越 GPT-4 躍居第二

Elo 評(píng)分系統(tǒng)

網(wǎng)友熱議

GPT-4 Turbo 超長上下文 A / B 測試

OpenAI 最后的「開源遺作」兩周年

相關(guān)文章