首頁 > 智能時代>人工智能

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

量子位 2023/12/11 14:30:01 責(zé)編：遠(yuǎn)洋

評論：

各家大模型紛紛卷起上下文窗口，Llama-1 時標(biāo)配還是 2k，現(xiàn)在不超過 100k 的已經(jīng)不好意思出門了。

然鵝一項極限測試卻發(fā)現(xiàn)，大部分人用法都不對，沒發(fā)揮出 AI 應(yīng)有的實(shí)力。

AI 真的能從幾十萬字中準(zhǔn)確找到關(guān)鍵事實(shí)嗎？顏色越紅代表 AI 犯的錯越多。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

默認(rèn)情況下，GPT-4-128k 和最新發(fā)布的 Claude2.1-200k 成績都不太理想。

但 Claude 團(tuán)隊了解情況后，給出超簡單解決辦法，增加一句話，直接把成績從 27% 提升到 98%。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

只不過這句話不是加在用戶提問上的，而是讓 AI 在回復(fù)的開頭先說：

“Here is the most relevant sentence in the context:”

（這就是上下文中最相關(guān)的句子：）

讓大模型大海撈針

為了做這項測試，作者 Greg Kamradt 自掏腰包花費(fèi)了至少 150 美元。

好在測試 Claude2.1 時，Anthropic 伸出援手給他提供了免費(fèi)額度，不然還得多花 1016 美元。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

其實(shí)測試方法也不復(fù)雜，都是選用 YC 創(chuàng)始人 Paul Graham 的 218 篇博客文章當(dāng)做測試數(shù)據(jù)。

在文檔中的不同位置添加特定語句：在舊金山最好的事情，就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。

請 GPT-4 和 Claude2.1 僅僅使用所提供的上下文來回答問題，在不同上下文長度和添加在不同位置的文檔中反復(fù)測試。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

最后使用 Langchain Evals 庫來評估結(jié)果。

作者把這套測試命名為“干草堆里找針 / 大海撈針”，并把代碼開源在 GitHub 上，已獲得 200 + 星，并透露已經(jīng)有公司贊助了對下一個大模型的測試。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

AI 公司自己找到解決辦法

幾周后，Claude 背后公司 Anthropic 仔細(xì)分析后卻發(fā)現(xiàn)，AI 只是不愿意回答基于文檔中單個句子的問題，特別是這個句子是后來插入的，和整篇文章關(guān)系不大的時候。

也就是說，AI 判斷這句話和文章主題無關(guān)，就偷懶不去一句一句找了。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

這時就需要用點(diǎn)手段晃過 AI，要求 Claude 在回答開頭添加那句“Here is the most relevant sentence in the context:”就能解決。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

使用這個辦法，在尋找不是后來人為添加、本來就在原文章中的句子時，也能提高 Claude 的表現(xiàn)。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

Anthropic 公司表示將來會不斷地繼續(xù)訓(xùn)練 Claude，讓它能更適應(yīng)此類任務(wù)。

在 API 調(diào)用時要求 AI 以指定開頭回答，還有別的妙用。

創(chuàng)業(yè)者 Matt Shumer 看過這個方案后補(bǔ)充了幾個小技巧：

如果想讓 AI 輸出純 JSON 格式，提示詞的最后以“{”結(jié)尾。同理，如果想讓 AI 列出羅馬數(shù)字，提示詞以“I:”結(jié)尾就行。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

不過事情還沒完……

國內(nèi)大模型公司也注意到了這項測試，開始嘗試自家大模型能不能通過。

同樣擁有超長上下文的月之暗面 Kimi 大模型團(tuán)隊也測出了問題，但給出了不同的解決方案，也取得了很好的成績。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

這樣一來，修改用戶提問 Prompt，又比要求 AI 在自己的回答添加一句更容易做到，特別是在不是調(diào)用 API，而是直接使用聊天機(jī)器人產(chǎn)品的情況下。

月之暗面還用自己的新方法幫 GPT-4 和 Claude2.1 測試了一下，結(jié)果 GPT-4 改善明顯，Claude2.1 只是稍微改善。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

看來這個實(shí)驗本身有一定局限性，Claude 也是有自己的特殊性，可能與他們自己的對齊方式 Constituional AI 有關(guān)，需要用 Anthropic 自己提供的辦法更好。

后來，月之暗面的工程師還搞了更多輪實(shí)驗，其中一個居然是……

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

壞了，我成測試數(shù)據(jù)了。

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

參考鏈接：

[1]https://x.com/GregKamradt/status/1727018183608193393
[2]https://www.anthropic.com/index/claude-2-1-prompting

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用

讓大模型大海撈針

AI 公司自己找到解決辦法

相關(guān)文章

一句話解鎖 100k + 上下文大模型真實(shí)力，27 分漲到 98，GPT-4、Claude2.1 適用