首頁 > 智能時代>人工智能

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

量子位 2024/9/6 23:44:30 責(zé)編：清源

評論：

開源大模型王座突然易主，居然來自一家小創(chuàng)業(yè)團(tuán)隊(duì)，瞬間引爆業(yè)界。

新模型名為 Reflection 70B，使用一種全新訓(xùn)練技術(shù)，讓 AI 學(xué)會在推理過程中糾正自己的錯誤和幻覺。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

比如最近流行的數(shù) r 測試中，一開始它犯了和大多數(shù)模型一樣的錯誤，但主動在 <反思> 標(biāo)簽中糾正了自己。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

在官方評測中，70B 模型全面超越最強(qiáng)開源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特別是數(shù)學(xué)基準(zhǔn) GSM8K 上直接刷爆，得分 99.2%。

這個結(jié)果也讓 OpenAI 科學(xué)家、德?lián)?AI 之父 Noam Brown 激情開麥：

GSM8K 得分 99%！是不是可以正式淘汰這個基準(zhǔn)了？

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

模型剛剛上線網(wǎng)友就把試玩擠爆了，對此 Meta 還主動支援了更多算力。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

在網(wǎng)友測試中，Reflection 70B 能回答對 GSM8K 數(shù)據(jù)集中本身答案錯誤的問題：

我向模型提供了 GSM8K 中存在的 5 個“ground_truth”本身就不正確的問題。
模型沒有重復(fù)數(shù)據(jù)集中的錯誤答案，而是全部回答對了，這很令人印象深刻，表明那 99.2% 的準(zhǔn)確率并非來自于記憶測試集！

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

數(shù)各種 r 都不在話下，連生造詞“drirrrngrrrrrnnn”中有幾個 r 也能被正確數(shù)對。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

網(wǎng)友紛紛對小團(tuán)隊(duì)做出的開源超越頂流閉源感到驚訝，現(xiàn)在最強(qiáng)開源模型可以在本地運(yùn)行了。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

關(guān)鍵 70B 還只是個開始，官方表示下周還會發(fā)布更大的 Reflection 405B。

預(yù)計(jì) 405B 性能將大幅優(yōu)于 Sonnet 和 GPT-4o。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

Reflection 70B 權(quán)重已公開，API 訪問將于今天晚些時候由 Hyperbolic Labs 提供。

模型能自我反思糾正錯誤

目前關(guān)于 Reflection 70B 的更多細(xì)節(jié)如下。

Reflection 70B 能力提升的關(guān)鍵，是采用了一種名為 Reflection-Tuning 的訓(xùn)練方法，它能夠讓模型反思自己生成的文本，在最終確定回應(yīng)前檢測并糾正自身推理中的錯誤。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

訓(xùn)練中的數(shù)據(jù)來自使用 GlaiveAI 平臺生成的合成數(shù)據(jù)。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

Reflection 70B 基于 Llama 3.1 70B Instruct，可以使用與其它 Llama 模型相同的代碼、pipeline 等從 Reflection Llama-3.1 70B 進(jìn)行采樣。

它甚至使用了標(biāo)準(zhǔn)的 Llama 3.1 聊天格式。

不過，Reflection 70B 引入了一些特殊 tokens，結(jié)構(gòu)化輸出過程。

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

如下面這個例子所展示的，規(guī)劃過程分為一個獨(dú)立的步驟，這樣做可以提高 CoT 效果，并保持輸出精煉：

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集

模型將從在 <thinking> 和 </thinking> 標(biāo)簽內(nèi)輸出推理開始，一旦對其推理感到滿意，就會在 <output> 和 </output > 標(biāo)簽內(nèi)輸出最終答案。

所以它能夠?qū)⑵鋬?nèi)部思考和推理與最終答案分離。

在 <thinking> 部分，模型可能會輸出一個或多個，這表明模型發(fā)現(xiàn)了其推理中的錯誤，并將在提供最終答案之前嘗試糾正該錯誤。

系統(tǒng)提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
（你是一個世界級人工智能系統(tǒng)，能夠進(jìn)行復(fù)雜的推理和反思。在標(biāo)簽內(nèi)對查詢進(jìn)行推理，然后在標(biāo)簽內(nèi)提供你的最終回應(yīng)。如果你發(fā)現(xiàn)自己在任何時候推理出錯，請?jiān)跇?biāo)簽內(nèi)糾正自己。）

開源大模型新王 Reflection 70B 超越 GPT-4o：新技術(shù)可糾正自己幻覺，數(shù)學(xué) 99.2 分刷爆測試集