<samp id="4y2wa"></samp>

<samp id="4y2wa"></samp>

<rt id="4y2wa"><tfoot id="4y2wa"></tfoot></rt>

<kbd id="4y2wa"><fieldset id="4y2wa"></fieldset></kbd>

首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 科學(xué)探索>科技前沿

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

量子位 2023/12/20 22:38:12 責編：問舟

評論：

谷歌 Gemini 實力到底如何？卡耐基梅隆大學(xué)來了場專業(yè)客觀第三方比較。為保證公平，所有模型使用相同的提示和生成參數(shù)，并且提供可重復(fù)的代碼和完全透明的結(jié)果。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

不會像谷歌官方發(fā)布會那樣，用 CoT@32 對比 5-shot 了。

一句話結(jié)果：Gemini Pro 版本接近但略遜于 GPT-3.5 Turbo，GPT-4 還是遙遙領(lǐng)先。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

在深入分析中還發(fā)現(xiàn) Gemini 一些奇怪特性，比如選擇題喜歡選 D……

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

不少研究者表示，太卷了，Gemini 剛發(fā)布沒幾天就搞出這么詳細的測試。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

六大任務(wù)深入測試

這項測試具體比較了 6 大任務(wù)，分別選用相應(yīng)的數(shù)據(jù)集：

知識問答：MMLU
推理：BIG-Bench Hard
數(shù)學(xué)：GSM8k、SVAMP、ASDIV、MAWPS
代碼：HumanEval、ODEX
翻譯：FLORES
上網(wǎng)沖浪：WebArena

知識問答：喜歡選 D

從結(jié)果可以看出，使用思維鏈提示在這類任務(wù)上不一定能帶來提升。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

MMLU 數(shù)據(jù)集里都是多選題，對結(jié)果進一步分析還發(fā)現(xiàn)奇怪現(xiàn)象：Gemini 更喜歡選 D。

GPT 系列在 4 個選項上的分布就要平衡很多，團隊提出這可能是 Gemini 沒針對多選題做大量指令微調(diào)造成的。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

另外 Gemini 的安全過濾比較嚴重，涉及道德問題只回答了 85%，到了人類性行為相關(guān)問題只回答了 28%。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

Gemini Pro 表現(xiàn)超過 GPT-3.5 的兩個科目是安全研究和高中微觀經(jīng)濟學(xué)，但差距也不大，團隊表示分析不出來什么特別的。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

推理：長問題不擅長

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

Gemini Pro 在更長、更復(fù)雜的問題上表現(xiàn)不佳，而 GPT 系列對此更穩(wěn)健。

GPT-4 Turbo 尤其如此，即使在較長的問題上也幾乎沒有性能下降，表明它具有理解復(fù)雜問題的強大能力。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

如果按問題類型來分析，Gemini 特別不擅長“tracking_shuffled_objects”這類問題，也就人們交換物品，最后讓 AI 判斷誰擁有哪些物品。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

Gemini 比較擅長的任務(wù)是，需要世界知識的體育運動理解、操作符號堆棧、按字母順序排序單詞，解析表格。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

數(shù)學(xué)：復(fù)雜任務(wù)反超

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

這一次問題本身太長 Gemini Pro 和 GPT-3.5 表現(xiàn)就一起下降，只有 GPT-4 還能保持一貫水準。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

但使用的思維鏈提示長度最長時，Gemini 反超 GPT-3.5。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

代碼：擅長 matplotlib

對于代碼問題，Gemini 在參考答案長的問題上表現(xiàn)很差。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

按調(diào)用的庫來分類，GPT 系列在大多數(shù)類型更強，但 matplotlib 就完全不行。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

翻譯：只要回答了，質(zhì)量就很高

翻譯任務(wù)上，有 12 種類型 Gemini 拒絕回答，但是只要回答了的翻譯質(zhì)量都很高，整體表現(xiàn)超過 GPT-4。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

Gemini 拒絕翻譯的類型主要涉及拉丁語、阿拉伯語。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

網(wǎng)絡(luò)導(dǎo)航：擅長跨站點沖浪

WebArena 給 AI 模擬了一個互聯(lián)網(wǎng)環(huán)境，包括電子商務(wù)、社交論壇、GitLab 協(xié)作開發(fā)、內(nèi)容管理系統(tǒng)和在線地圖等，需要 AI 查找信息或跨站點完成任務(wù)。

Gemini 在整體表現(xiàn)不如 GPT-3.5 Turbo，但在跨多個站點的任務(wù)中表現(xiàn)稍好。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

網(wǎng)友：但是它免費啊

最后，CMU 副教授 Graham Neubig 承認了這項研究的一些局限性。

基于 API 的模型行為可能隨時變化
只嘗試了有限數(shù)量的提示，對不同模型來說適用的提示詞可能不一樣
無法控制測試集是否泄露

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

谷歌大模型推理團隊負責人周登勇指出，對于推理任務(wù)把 Gemini 的溫度設(shè)置為 0 可以提高 5-10 個百分點。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

這項測試中除了 Gemini 與 GPT 系列，還搭上了最近很受關(guān)注的開源 MoE 模型 Mixtral。

不過強化學(xué)習(xí)專家 Noam Brown 認為可以忽略其中 Mixtral 的結(jié)果，因為用的是第三方 API 而非官方實現(xiàn)。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

Mistral AI 創(chuàng)始人也來給團隊提供了官方版調(diào)用權(quán)限，認為能得到一個更好的結(jié)果。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

總得來，雖然 Gemini Pro 還是不如 GPT-3.5，但是它勝在每分鐘調(diào)用不超過 60 次就免費。

所以還是有不少個人開發(fā)者已經(jīng)轉(zhuǎn)換了陣營。

谷歌 Gemini Pro 實測不如 GPT-3.5，CMU 深入對比研究：保證公平透明可重復(fù)

目前 Gemini 最高版本 Ultra 版尚未發(fā)布，到時 CMU 團隊也有意繼續(xù)這項研究。你覺得 Gemini Ultra 能達到 GPT-4 水平么？

論文：

https://arxiv.org/abs/2312.11444
參考鏈接：
[1]https://twitter.com/gneubig/status/1737108977954251216

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：谷歌，OpenAI，GPT4，cmu，Gemini Ultra，Gemini Pro

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機APP應(yīng)用魔方最會買要知