谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

新智元 2024/1/2 19:13:18 責(zé)編：遠(yuǎn)洋

評(píng)論：

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】谷歌放出的 Gemini，在對(duì)標(biāo) GPT 的道路上似乎一直處于劣勢(shì)，Gemini 真的比 GPT-4 弱嗎？最近，斯坦福和 Meta 的學(xué)者發(fā)文為 Gemini 正名。

Gemini 的推理能力，真的比 GPT-4 弱嗎？

此前，谷歌憋出的重磅復(fù)仇神器 Gemini Pro，被發(fā)現(xiàn)在常識(shí)推理任務(wù)中落后于 OpenAI 的 GPT 模型。

之后又有 CMU 發(fā)布的論文和實(shí)驗(yàn)，證明 Gemini Pro 的很多能力都略微落后于 GPT-3.5 Turbo。

不過(guò)最近，斯坦福和 Meta 的學(xué)者為 Gemini 洗清了這一「冤屈」。

他們發(fā)現(xiàn)，這種基于有限數(shù)據(jù)集（HellaSWAG）的評(píng)估，并不能完全捕捉到 Gemini 真正的常識(shí)推理潛力。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

論文地址：https://arxiv.org/ abs / 2312.17661

而在新測(cè)試集中，Gemini 的推理能力比之前強(qiáng)很多！

Gemini 的真正潛力

斯坦福和 Meta 的研究人員表示，以前的基于有限數(shù)據(jù)集的評(píng)估，對(duì)于 Gemini 不夠公平。

這次，研究人員設(shè)計(jì)了需要跨模態(tài)整合常識(shí)知識(shí)的任務(wù)，以對(duì) Gemini 在復(fù)雜推理任務(wù)中的表現(xiàn)進(jìn)行徹底的評(píng)估。

研究人員對(duì) 12 個(gè)常識(shí)推理數(shù)據(jù)集進(jìn)行了全面分析，從一般任務(wù)到特定領(lǐng)域的任務(wù)。

在其中的 4 個(gè) LLM 實(shí)驗(yàn)和 2 個(gè) MLLM 實(shí)驗(yàn)中，研究者證明了 Gemini 具有目前相當(dāng)強(qiáng)的常識(shí)推理能力。

研究者對(duì)于當(dāng)前流行的四大模型 ——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和 GPT-4 Turbo 進(jìn)行了評(píng)估，

他們發(fā)現(xiàn)，總體而言，Gemini Pro 的性能和 GPT-3.5 Pro 相當(dāng)，準(zhǔn)確性上落后于 GPT-4 Turbo。

實(shí)驗(yàn)

數(shù)據(jù)集

實(shí)驗(yàn)中采用了 12 個(gè)與不同類(lèi)型的常識(shí)推理相關(guān)的數(shù)據(jù)集，包括 11 個(gè)基于語(yǔ)言的數(shù)據(jù)集和一個(gè)多模態(tài)數(shù)據(jù)集。

基于語(yǔ)言的數(shù)據(jù)集包括三大類(lèi)常識(shí)推理問(wèn)題：

1.一般推理和情境推理：CommonsenseQA，側(cè)重于一般常識(shí)知識(shí)；Cosmos QA，強(qiáng)調(diào)語(yǔ)境理解敘事；αNLI，引入演繹推理，包括推斷最合理的解釋?zhuān)籋ellaSWAG，以上下文事件序列的推理為中心。

2.專(zhuān)業(yè)推理和知識(shí)推理：TRAM，測(cè)試關(guān)于時(shí)間的推理；NumerSense，側(cè)重于數(shù)值理解；PIQA，評(píng)估物理相互作用知識(shí)；QASC，處理與科學(xué)相關(guān)的推理；RiddleSense，通過(guò)謎語(yǔ)挑戰(zhàn)創(chuàng)造性思維。

3.社會(huì)和道德推理：Social IQa，測(cè)試對(duì)社會(huì)互動(dòng)的理解；ETHICS，評(píng)估道德和倫理推理。

對(duì)于多模態(tài)數(shù)據(jù)集（視覺(jué)和語(yǔ)言），這里選擇 VCR，一個(gè)用于認(rèn)知水平視覺(jué)理解的大規(guī)模數(shù)據(jù)集。

對(duì)于包含多個(gè)任務(wù)的 TRAM 和 ETHICS 等數(shù)據(jù)集，研究人員提取了實(shí)驗(yàn)的常識(shí)推理部分。

實(shí)驗(yàn)中采用準(zhǔn)確性作為所有數(shù)據(jù)集的性能指標(biāo)。下表給出了數(shù)據(jù)集的概述以及示例問(wèn)題。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

模型

采用最流行的四個(gè)大模型：開(kāi)源的 Llama-2-70b-chat 和閉源的 Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每個(gè)模型都使用相應(yīng)的 API 密鑰進(jìn)行訪問(wèn)：通過(guò) Google Vertex AI 訪問(wèn) Gemini，通過(guò) OpenAI API 訪問(wèn) GPT，通過(guò) DeepInfra 訪問(wèn) Llama2。

對(duì)于多模態(tài)數(shù)據(jù)集，實(shí)驗(yàn)中考慮了 GPT-4V（API 中的 gpt-4-vision-preview）和 Gemini Pro Vision（API 中的 gemini-pro-vision）。

考慮到 API 成本和速率的限制，研究人員從每個(gè)基于語(yǔ)言的數(shù)據(jù)集的驗(yàn)證集中隨機(jī)選擇了 200 個(gè)示例，從 VCR 數(shù)據(jù)集的驗(yàn)證集中隨機(jī)選擇了 50 個(gè)示例。

對(duì)于所有評(píng)估，在模型響應(yīng)生成期間采用貪婪解碼（即溫度 = 0）。

提示

在評(píng)估基于語(yǔ)言的數(shù)據(jù)集時(shí)，研究人員采用了兩種提示設(shè)置：零樣本標(biāo)準(zhǔn)提示（SP），旨在衡量模型在語(yǔ)言環(huán)境中的固有常識(shí)能力，以及少樣本思維鏈（CoT）提示，用于觀察模型性能的潛在增強(qiáng)。

對(duì)于多模態(tài)數(shù)據(jù)集，利用零樣本標(biāo)準(zhǔn)提示，來(lái)評(píng)估 MLLM 的端到端視覺(jué)常識(shí)推理能力。

結(jié)果

整體的性能比較結(jié)果如下表所示：

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

從模型的角度來(lái)看，GPT-4 Turbo 的平均表現(xiàn)最好。在零樣本學(xué)習(xí)中，它比第二名的 Gemini Pro 高出 7.3%，在少樣本學(xué)習(xí)中優(yōu)勢(shì)更大（9.0%）。

而 Gemini Pro 的平均準(zhǔn)確率略高于 GPT-3.5 Turbo（0-shot，SP 下高 1.3%，k-shot，CoT 下高 1.5%）。

關(guān)于提示方法，CoT 提高了所有數(shù)據(jù)集的性能，在 CommonsenseQA、TRAM 和 Social IQa 等數(shù)據(jù)集中有明顯的收益。

下表是在多模態(tài) VCR 數(shù)據(jù)集上的性能比較：

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

VCR 的三個(gè)子任務(wù)分別為：Q → A，根據(jù)視覺(jué)上下文生成問(wèn)題的答案；QA → R，要求模型為給定的答案提供基本原理；Q → AR，既要回答問(wèn)題，又要用適當(dāng)?shù)睦碛蓙?lái)證明回答的合理性。

將 11 個(gè)基于語(yǔ)言的數(shù)據(jù)集分為三組，在圖 1 中展示了每組中每種設(shè)置的性能。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

研究結(jié)果表明，GPT-4 Turbo 在所有類(lèi)別的性能方面始終領(lǐng)先。

Gemini Pro 和 GPT-3.5 Turbo 的性能相當(dāng)；不過(guò)，Gemini Pro 在三個(gè)類(lèi)別中的兩個(gè)類(lèi)別中，略勝于 GPT-3.5 Turbo。

總體而言，所有模型在處理社會(huì)和道德推理數(shù)據(jù)集方面，都表現(xiàn)出強(qiáng)大的能力。

然而，它們?cè)谝话阃评砗驼Z(yǔ)境推理任務(wù)上的表現(xiàn)，存在顯著差異。

這也表明，它們對(duì)更廣泛的常識(shí)原則，及其在不同背景下的應(yīng)用理解，存在潛在差距。

而在專(zhuān)業(yè)和知識(shí)推理類(lèi)別，特別是在時(shí)間和基于謎語(yǔ)的挑戰(zhàn)領(lǐng)域，模型在處理復(fù)雜時(shí)間序列、破譯謎語(yǔ)所需的抽象和創(chuàng)造性思維能力上，都表現(xiàn)出了缺陷。

關(guān)于多模態(tài)數(shù)據(jù)集，圖 2 詳細(xì)介紹了 GPT-4V 和 GeminiPro Vision 在不同問(wèn)題類(lèi)型上的性能比較。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

我們可以看到，在最后一個(gè)關(guān)于時(shí)間類(lèi)別的問(wèn)題上，GeminiPro Vision 實(shí)現(xiàn)了反超。

MLLM 的推理正當(dāng)性

為了評(píng)估 MLLM 的推理能力，尤其是不僅提供正確答案，還能就常識(shí)問(wèn)題提供合理且基于上下文推理的能力，研究者采用了系統(tǒng)抽樣方法。

對(duì)于評(píng)估四個(gè) LLM 的 11 個(gè)基于語(yǔ)言的數(shù)據(jù)集，研究者隨機(jī)選擇了 30 個(gè)回答正確的問(wèn)題，和 30 個(gè)回答錯(cuò)誤的問(wèn)題。

如果數(shù)據(jù)集提供的錯(cuò)誤答案少于 30 個(gè)，研究者就會(huì)包含進(jìn)所有可用的錯(cuò)誤答案，以確保分析的全面性。

選擇這些問(wèn)題后，他們會(huì)讓每個(gè)模型解釋?zhuān)骸竼?wèn)題答案背后的基本原理是什么?」然后手動(dòng)檢查模型提供的推理過(guò)程，并根據(jù)其邏輯合理性和與問(wèn)題的相關(guān)性被判為 True 或 False。

圖 3 顯示，GPT-4 Turbo 在正確和錯(cuò)誤的答案上，都顯示出先進(jìn)的推理機(jī)制，即使最終答案不準(zhǔn)確，它也有保持邏輯連貫的能力。

另外，Gemini Pro 也表現(xiàn)出了值得稱贊的推理能力，提供了全面的常識(shí)推理方法。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

下圖展示了 Gemini Pro 和 GPT-3.5 的兩個(gè)真實(shí)示例，展現(xiàn)了正確答案和正確理由，以及錯(cuò)誤答案和錯(cuò)誤理由的情況。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

示例問(wèn)題來(lái)自 QASC 數(shù)據(jù)集，紅色粗體為正確答案。在上圖中，Gemini Pro 表現(xiàn)出有條不紊的推理，仔細(xì)考慮所有選項(xiàng)以得出最合乎邏輯的結(jié)論。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

相反，由于 GPT-3.5 Turbo 對(duì)非常規(guī)邏輯的傾向，導(dǎo)致了富有想象力但不正確的答案。

這表明不同模型應(yīng)對(duì)常識(shí)推理任務(wù)的不同策略，有自己的獨(dú)特能力和局限性。

Gemini Pro 的常識(shí)推理能力

一般常識(shí)（CommonsenseQA)

在使用 CommonsenseQA 數(shù)據(jù)集的一般常識(shí)評(píng)估中，有這樣一道示例問(wèn)題：「當(dāng)你是陌生人時(shí)，人們會(huì)怎樣?」

A.火車(chē) B.奇怪 C.人類(lèi) D.愚蠢 E.危險(xiǎn)

Gemini Pro 選擇了 B。

它的推理過(guò)程也值得注意：它認(rèn)識(shí)到，雖然所有選項(xiàng)都和「陌生人」的概念相關(guān)，但只有「奇怪」準(zhǔn)確概括了問(wèn)題的中立和開(kāi)放性本質(zhì)。

這個(gè)選擇，凸顯出了 Gemini Pro 解釋和應(yīng)用一般常識(shí)知識(shí)的能力。

時(shí)間（TRAM）

TRAM 數(shù)據(jù)集的時(shí)間常識(shí)評(píng)估中的示例問(wèn)題：「他還承諾會(huì)來(lái)找他?！?/p>

他需要多長(zhǎng)時(shí)間才能「來(lái)到他身邊」？

A.100 年 B.一分鐘內(nèi) C.幾個(gè)小時(shí)

由于缺乏足夠的背景信息，特別是關(guān)于所涉及的身份和「來(lái)到」的含義，Gemini Pro 無(wú)法提供明確的答案。

這說(shuō)明了，模型需要依賴特定的上下文信息，來(lái)做出準(zhǔn)確的時(shí)間判斷。

在現(xiàn)實(shí)世界的信息傳播中，模糊或不完整的信息，也會(huì)造成這種局限性。

社交 (Social IQa)

在使用 Social IQa 數(shù)據(jù)集評(píng)估 GeminiPro 在社會(huì)常識(shí)推理方面的表現(xiàn)時(shí)，出現(xiàn)了一個(gè)有趣的場(chǎng)景: 人們一直欺負(fù)在 Sasha，Sasha 報(bào)復(fù)了回去，接下來(lái)人們會(huì)做什么？

A.按 Sasha 說(shuō)的去做 B.報(bào)仇 C.逃離 Sasha

正確答案是 C，但 Gemini Pro 的選擇卻顯得很有洞察力。

它選擇了 B，理由是 Sasha 的行動(dòng)很可能點(diǎn)燃了人們復(fù)仇的欲望。

這一回應(yīng)表明，Gemini Pro 對(duì)于社會(huì)動(dòng)態(tài)和情感動(dòng)機(jī)有了細(xì)致入微的理解。

Visual（VCR）

在 VCR 數(shù)據(jù)集中，研究者分析了 Gemini Pro Vision 對(duì)涉及人身安全和潛在危險(xiǎn)場(chǎng)景的響應(yīng)。

如果此時(shí) 4 號(hào)推了 3 號(hào)，會(huì)發(fā)生什么？

Gemini Pro Vision 回答：3 號(hào)會(huì)掉下懸崖，危及生命。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

這個(gè)結(jié)果表明，Gemini Pro Vision 已經(jīng)能夠做出視覺(jué)常識(shí)推理，分析視覺(jué)場(chǎng)景并預(yù)測(cè)這些場(chǎng)景中動(dòng)作的潛在后果。

這表明模型已經(jīng)掌握了空間關(guān)系和物理后果，具備了類(lèi)似人類(lèi)認(rèn)知的復(fù)雜視覺(jué)信息能力。

作者介紹

Yuqing Wang 目前是斯坦福大學(xué)的博士后研究員。

此前，她在明尼蘇達(dá)大學(xué)獲得學(xué)士學(xué)位，在加利福尼亞大學(xué)圣芭芭拉分校獲得博士學(xué)位。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

Yun Zhao 目前是 Meta 的研究員，研究方向是機(jī)器學(xué)習(xí)（包括深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)）的應(yīng)用、人工智能與數(shù)據(jù)挖掘。

此前，他在清華大學(xué)獲得碩士學(xué)位，并且同樣在加利福尼亞大學(xué)圣芭芭拉分校獲得博士學(xué)位。

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

參考資料：

https://arxiv.org/abs/2312.17661

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5

Gemini 的真正潛力

實(shí)驗(yàn)

MLLM 的推理正當(dāng)性

Gemini Pro 的常識(shí)推理能力

一般常識(shí)（CommonsenseQA)

時(shí)間（TRAM）

社交 (Social IQa)

Visual（VCR）

作者介紹

相關(guān)文章

谷歌 Gemini 大逆轉(zhuǎn)？斯坦福 Meta 華人證明其推理性能強(qiáng)于 GPT-3.5