首頁 > 科學(xué)探索>科技前沿

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

量子位 2023/9/29 12:40:48 責(zé)編：汪淼

評論：

圖靈獎得主姚期智領(lǐng)銜的首篇大語言模型論文來了！

一出手，瞄準(zhǔn)的就是“讓大模型像人一樣思考”這個方向 ——

不僅要讓大模型一步步推理，還要讓它們學(xué)會“步步為營”，記住推理中間的所有正確過程。

具體來說，這篇新論文提出了一種叫做累積推理（Cumulative Reasoning）的新方法，顯著提高了大模型搞復(fù)雜推理的能力。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

要知道，大模型基于思維鏈等，可以進行問題推理，但面對“要拐好幾個彎”的問題，還是容易出錯。

累積推理正是在此基礎(chǔ)上，加入了一個“驗證者”，及時判斷對錯。由此模型的思考框架也從鏈狀和樹狀，變成了更復(fù)雜的“有向無環(huán)圖”。

這樣一來，大模型不僅解題思路更清晰，還生出了一手“玩牌”的技巧：

在代數(shù)和幾何數(shù)論等數(shù)學(xué)難題上，大模型的相對準(zhǔn)確率提升了 42%；玩 24 點，成功率更是飆升到 98%。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

據(jù)清華大學(xué)交叉信息研究院介紹，共同一作張伊凡解釋了這篇論文的出發(fā)點：

卡尼曼認(rèn)為人類的認(rèn)知處理過程包括兩個系統(tǒng)：“系統(tǒng) 1”是快速、本能和情感化的，“系統(tǒng) 2”是緩慢、深思熟慮、合邏輯的。
目前，大語言模型的表現(xiàn)與“系統(tǒng) 1”更為接近，這也或許是它不擅長應(yīng)對復(fù)雜任務(wù)的原因。

從這個角度出發(fā)設(shè)計的累積推理，效果比思維鏈（CoT）和思維樹（ToT）更好。那么，這種新方法究竟長啥樣？我們一起展開看看。

突破思維鏈 & 樹“瓶頸”

累積推理的核心，在于改進了大模型思維過程的“形狀”。

具體來說，這個方法用到了 3 個大語言模型：

提議者（Proposer）：不斷提出新命題，即基于當(dāng)前思維上下文，建議下一步是什么。
驗證者（Verifier）：核查提議者的命題準(zhǔn)確性，如果正確就將它添加到思維上下文中。
報告者（Reporter）：判斷是否已經(jīng)能得到最終解決方案，來確定是否結(jié)束推理過程。

推理過程中，“提議者”先給出提案，“驗證者”負(fù)責(zé)評估，“報告者”決定是否要敲定答案、終止思考過程。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

▲ CR 推理示例

有點像是團隊項目里的三類角色：小組成員先頭腦風(fēng)暴出各種 idea，指導(dǎo)老師“把關(guān)”看哪個 idea 可行，組長決策什么時候完成項目。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

所以，這種方法究竟是怎么改變大模型思維“形狀”的？

要想理解這一點，還得先從大模型思維加強方法“鼻祖”思維鏈（Chain of Thought,CoT）說起。

這個方法在 2022 年 1 月由 OpenAI 科學(xué)家 Jason Wei 等人提出，核心在于給數(shù)據(jù)集中的輸入加一段“逐步推理”文字，激發(fā)出大模型的思考能力。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

▲ 選自 GSM8K 數(shù)據(jù)集

基于思維鏈原理，谷歌也快速跟進了一個“思維鏈 PLUS 版”，即 CoT-SC，主要是進行多次思維鏈過程，并對答案進行多數(shù)投票（majority vote）選出最佳答案，進一步提升推理準(zhǔn)確率。

但無論思維鏈還是 CoT-SC，都忽略了一個問題：題目不止有一種解法，人類做題更是如此。

因此，隨后又出現(xiàn)了一種名叫思維樹（Tree of Thought，ToT）的新研究。

這是一種樹狀檢索方案，允許模型嘗試多種不同的推理思路，并自我評估、選擇下一步行動方案，必要時也可以回溯選擇。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

從方法中可以看出，思維樹比思維鏈更進一步，讓大模型思維“更活躍”了。這也是為什么玩 24 點時，思維鏈加成的 GPT-4 成功率只有 4%，但思維樹成功率卻飆升到 74%。

BUT 無論思維鏈、CoT-SC 還是思維樹，都有一個共同的局限性：

它們都沒有設(shè)置思維過程中間結(jié)果的儲存位置。

畢竟不是所有的思維過程都能做成鏈或者樹，人類想東西的方式往往還要更復(fù)雜。

這次的累積推理新框架，在設(shè)計上就突破了這一點 ——

大模型的整體思維過程不一定是鏈或樹，還可以是一個有向無環(huán)圖（DAG）！（嗯，有神經(jīng)突觸內(nèi)味了）

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

▲ 圖中的邊都有方向，并且不存在任何循環(huán)路徑；每個有向邊是一個推導(dǎo)步驟

這也就意味著，它可以將所有歷史上正確的推理結(jié)果存儲于內(nèi)存中，以便在當(dāng)前搜索分支中探索。（相比之下，思維樹并不會存儲來自其它分支的信息）

但累積推理也能和思維鏈無縫切換 —— 只要將“驗證者”去掉，就是一個標(biāo)準(zhǔn)的思維鏈模式。

基于這種方法設(shè)計的累積推理，在各種方法上都取得了不錯的效果。

做數(shù)學(xué)和搞邏輯推理都在行

研究人員選擇了 FOLIO wiki 和 AutoTNLI、24 點游戲、MATH 數(shù)據(jù)集，來對累積推理進行“測試”。

提議者、驗證者、報告者在每次實驗中使用相同的大語言模型，用不同的 prompt 來設(shè)定角色。

這里用作實驗的有 GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B 這些基礎(chǔ)模型。

值得一提的是，理想情況下應(yīng)該使用相關(guān)推導(dǎo)任務(wù)數(shù)據(jù)專門預(yù)訓(xùn)練模型、“驗證者”也應(yīng)加入正規(guī)的數(shù)學(xué)證明器、命題邏輯求解器模塊等。

1、邏輯推理能力

FOLIO 是一階邏輯推理數(shù)據(jù)集，問題的標(biāo)簽可以是“true”、“False”、“Unknown”；AutoTNLI 是高階邏輯推理數(shù)據(jù)集。

在 FOLIO wiki 數(shù)據(jù)集上，與直接輸出結(jié)果（Direct）、思維鏈（CoT）、進階版思維鏈（CoT-SC）方法相比，累積推理（CR）表現(xiàn)總是最優(yōu)。

在刪除數(shù)據(jù)集中有問題的實例（比如答案不正確）后，使用 CR 方法的 GPT-4 推理準(zhǔn)確率達到了 98.04%，并且有最小 1.96% 的錯誤率。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

再來看 AutoTNLI 數(shù)據(jù)集上的表現(xiàn)：

與 CoT 方法相比，CR 顯著提高了 LLaMA-13B、LLaMA-65B 的性能。

在 LLaMA-65B 模型上，CR 相較于 CoT 的改進達到了 9.3%。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

2、玩 24 點游戲能力

ToT 最初論文中用到的是 24 點游戲，所以這里研究人員就用此數(shù)據(jù)集來做 CR 和 ToT 的比較。

ToT 使用固定寬度和深度的搜索樹，CR 允許大模型自主確定搜索深度。

研究人員在實驗中發(fā)現(xiàn)，在 24 點的上下文中，CR 算法和 ToT 算法非常相似。不同點在于，CR 中算法每次迭代最多產(chǎn)生一個新的狀態(tài)，而 ToT 在每次迭代中會產(chǎn)生許多候選狀態(tài)，并過濾、保留一部分狀態(tài)。

通俗來講，ToT 沒有上面提到的 CR 有的“驗證者”，不能判斷狀態(tài)（a、b、c）正誤，因此 ToT 比 CR 會探索更多無效狀態(tài)。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

最終 CR 方法的正確率甚至能達到 98%（ToT 為 74%），且平均訪問狀態(tài)數(shù)量要比 ToT 少很多。

也就是說 CR 不僅有更高的搜索正確率，也有更高的搜索效率。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

3、數(shù)學(xué)能力

MATH 數(shù)據(jù)集包含了大量數(shù)學(xué)推理題目，包含代數(shù)、幾何、數(shù)論等，題目難度分為五級。

用 CR 方法，模型可以將題目分步驟拆解成能較好完成的子問題，自問自答，直到產(chǎn)生答案。

實驗結(jié)果表明，CR 在兩種不同的實驗設(shè)定下，正確率均超出當(dāng)前已有方法，總體正確率可達 58%，并在 Level 5 的難題中實現(xiàn)了 42% 的相對準(zhǔn)確率提升，拿下了 GPT-4 模型下的新 SOTA。

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

清華叉院姚期智、袁洋領(lǐng)銜研究

這篇論文來自清華交叉信息院姚期智和袁洋領(lǐng)銜的 AI for Math 課題組。

論文共同第一作者為交叉信息院 2021 級博士生張伊凡、楊景欽；

指導(dǎo)老師及共同通訊作者為袁洋助理教授、姚期智院士。

張伊凡

張伊凡 2021 年本科畢業(yè)于北京大學(xué)元培學(xué)院，現(xiàn)師從袁洋助理教授，主要研究方向為基礎(chǔ)模型（大語言模型）的理論和算法、自監(jiān)督學(xué)習(xí)、可信人工智能。

楊景欽

楊景欽 2021 年于清華大學(xué)交叉信息研究院獲學(xué)士學(xué)位，現(xiàn)師從袁洋助理教授攻讀博士學(xué)位。主要研究方向有大語言模型、自監(jiān)督學(xué)習(xí)、智能醫(yī)療等。

袁洋

袁洋是清華大學(xué)交叉信息學(xué)院助理教授。2012 年畢業(yè)于北京大學(xué)計算機系；2018 年獲美國康奈爾大學(xué)計算機博士學(xué)位；2018-2019 年前往麻省理工學(xué)院大數(shù)據(jù)科學(xué)學(xué)院做博士后。

他的主要研究方向是智能醫(yī)療、AI 基礎(chǔ)理論、應(yīng)用范疇論等。

姚期智

姚期智是中國科學(xué)院院士、清華大學(xué)交叉信息研究院院長；同時也是“圖靈獎”創(chuàng)立以來首位獲獎的亞裔學(xué)者、迄今為止獲此殊榮的唯一華人計算機科學(xué)家。

姚期智教授 2004 年從普林斯頓辭去終身教職回到清華任教；2005 年為清華本科生創(chuàng)立了計算機科學(xué)實驗班“姚班”；2011 年創(chuàng)建“清華量子信息中心”與“交叉信息研究院”；2019 年再為清華本科生創(chuàng)立了人工智能學(xué)堂班，簡稱“智班”。

如今，他領(lǐng)導(dǎo)的清華大學(xué)交叉信息研究院早已聲名遠(yuǎn)播，姚班、智班都隸屬交叉信息院。

姚期智教授研究方向有算法、密碼學(xué)、量子計算等，是這方面的國際先驅(qū)和權(quán)威。最近，他現(xiàn)身 2023 世界人工智能大會，所領(lǐng)導(dǎo)的上海期智研究院目前正在研究“具身通用人工智能”。

論文鏈接：

https://arxiv.org/abs/2308.04371

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

突破思維鏈 & 樹“瓶頸”

做數(shù)學(xué)和搞邏輯推理都在行

1、邏輯推理能力

2、玩 24 點游戲能力

3、數(shù)學(xué)能力

清華叉院姚期智、袁洋領(lǐng)銜研究

張伊凡

楊景欽

袁洋

姚期智

相關(guān)文章

姚期智領(lǐng)銜提出大模型「思維」框架！邏輯推理正確率達 98%，思考方式更像人類了

1、邏輯推理能力

2、玩 24 點游戲能力

3、數(shù)學(xué)能力

清華叉院姚期智、袁洋領(lǐng)銜研究