大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

量子位 2023/9/10 22:44:42 責(zé)編：遠(yuǎn)洋

評(píng)論：

感謝IT之家網(wǎng)友 Alejandro86、軟媒用戶1520111 的線索投遞！

提示詞中加上“深呼吸”，AI 大模型數(shù)學(xué)成績(jī)就能再漲 8.4 分！

谷歌 DeepMind 團(tuán)隊(duì)最新發(fā)現(xiàn)，用這個(gè)新“咒語(yǔ)”（Take a deep breath）結(jié)合大家已經(jīng)熟悉的“一步一步地想”（Let’s think step by step），大模型在 GSM8K 數(shù)據(jù)集上的成績(jī)就從 71.8 提高到 80.2 分。

而且這個(gè)最有效的提示詞，是 AI 自己找出來(lái)的。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

有網(wǎng)友開玩笑說，深呼吸以后，散熱風(fēng)扇就轉(zhuǎn)速就提高了。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

也有人表示，剛高薪入職的提示工程師們也應(yīng)該深呼吸，工作可能干不久了

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

相關(guān)論文《大語(yǔ)言模型是優(yōu)化器》，再次引起轟動(dòng)。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

具體來(lái)說，大模型自己設(shè)計(jì)的提示詞在 Big-Bench Hard 數(shù)據(jù)集上最高提升 50%。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

也有人的關(guān)注點(diǎn)在“不同模型的最佳提示詞不一樣”。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

并且不止提示詞設(shè)計(jì)這一個(gè)任務(wù)，在論文中還測(cè)試了大模型在線性回歸和旅行商問題這些經(jīng)典優(yōu)化任務(wù)上的能力。

模型不同，最佳提示詞也不同

優(yōu)化問題無(wú)處不在，基于導(dǎo)數(shù)和梯度的算法是強(qiáng)大的工具，但現(xiàn)實(shí)應(yīng)用中也經(jīng)常遇到梯度不適用的情況。

為解決這個(gè)問題，團(tuán)隊(duì)開發(fā)了新方法 OPRO，也就是通過提示詞優(yōu)化（Optimization by PROmpting）。

不是形式化定義優(yōu)化問題然后用程序求解，而是用自然語(yǔ)言描述優(yōu)化問題，并要求大模型生成新的解決方案。

一圖流總結(jié)，就是對(duì)大模型的一種遞歸調(diào)用。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

每一步優(yōu)化中，以之前生成的解決方案和評(píng)分作為輸入，大模型生成新的方案并評(píng)分，再將其添加到提示詞中，供下一步優(yōu)化使用。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

論文主要使用谷歌的 PaLM 2 和 Bard 中的 text-bison 版本作為評(píng)測(cè)模型。

再加上 GPT-3.5 和 GPT-4，共 4 種模型作為優(yōu)化器。

結(jié)果表明，不光不同模型設(shè)計(jì)出的提示詞風(fēng)格不同，適用的提示詞風(fēng)格也不同。

此前在 GPT 系列上的 AI 設(shè)計(jì)出的最優(yōu)提示詞是“Let’s work this out in a step by step way to be sure we have the right answer.”

這個(gè)提示詞使用 APE 方法設(shè)計(jì)，論文發(fā)表在 ICLR 2023 上，在 GPT-3（text-davinci-002）上超過人類設(shè)計(jì)的版本“Let’s think step by step”。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

但這次在谷歌系 PaLM 2 和 Bard 上，APE 版本作為基線就還不如人類版本。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

OPRO 方法設(shè)計(jì)出來(lái)的新提示詞中，“深呼吸”和“拆解這個(gè)問題”對(duì) PaLM 來(lái)說效果最好。

對(duì) text-bison 版的 Bard 大模型來(lái)說，則更傾向于詳細(xì)的提示詞。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

另外論文還展示了大模型在數(shù)學(xué)優(yōu)化器上的潛力。

線性回歸作為連續(xù)優(yōu)化問題的示例。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

旅行商問題作為離散優(yōu)化問題的示例。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

僅僅通過提示，大模型就能找到不錯(cuò)的解決方案，有時(shí)甚至匹敵或超過手動(dòng)設(shè)計(jì)的啟發(fā)式算法。

但團(tuán)隊(duì)也認(rèn)為大模型還無(wú)法替代傳統(tǒng)基于梯度的優(yōu)化算法，當(dāng)問題規(guī)模較大（如節(jié)點(diǎn)數(shù)量較多的旅行商問題）時(shí)，OPRO 方法表現(xiàn)就不好。

對(duì)于未來(lái)改進(jìn)方向，團(tuán)隊(duì)提出當(dāng)前大模型還無(wú)法有效利錯(cuò)誤案例，僅提供錯(cuò)誤案例無(wú)法讓大模型捕捉捕捉到錯(cuò)誤的原因。

一個(gè)有前景的方向是結(jié)合關(guān)于錯(cuò)誤案例的更豐富的反饋，并總結(jié)優(yōu)化軌跡中高質(zhì)量和低質(zhì)量生成提示的關(guān)鍵特征差異。

這些信息可能幫助優(yōu)化器模型更高效地改進(jìn)過去生成的提示，并可能進(jìn)一步減少提示優(yōu)化所需的樣本數(shù)量。

論文放出大量最優(yōu)提示詞

論文來(lái)自谷歌與 DeepMind 合并后的部門，但作者以原谷歌大腦團(tuán)隊(duì)為主，包括 Quoc Le、周登勇。

共同一作為康奈爾大學(xué)博士畢業(yè)的復(fù)旦校友 Chengrun Yang，和 UC 伯克利博士畢業(yè)的上交大校友陳昕昀。

團(tuán)隊(duì)還在論文中給出了大量實(shí)驗(yàn)中得到的最優(yōu)提示詞，包括電影推薦、惡搞電影名字等實(shí)用場(chǎng)景，有需要的小伙伴可自取。

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

論文地址：

https://arxiv.org/abs/2309.03409

參考鏈接：

[1]https://x.com/emollick/status/1700207590607552740

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

模型不同，最佳提示詞也不同

論文放出大量最優(yōu)提示詞

相關(guān)文章

大模型靠“深呼吸”數(shù)學(xué)再漲 8 分！谷歌 DeepMind 發(fā)現(xiàn) AI 自己設(shè)計(jì)提示詞效果勝人類

模型不同，最佳提示詞也不同