不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

新智元 2023/1/9 20:12:04 責(zé)編：夢(mèng)澤

評(píng)論：

谷歌發(fā)布全新反向推理算法 LAMBADA，無(wú)懼搜索空間爆炸！

自動(dòng)推理絕對(duì)算是自然語(yǔ)言處理領(lǐng)域的一大難題，模型需要根據(jù)給定的前提和知識(shí)推導(dǎo)出有效且正確的結(jié)論。

盡管近年來(lái) NLP 領(lǐng)域借著大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型在各種「自然語(yǔ)言理解」如閱讀理解和問(wèn)答等任務(wù)中取得了極高的性能，但這些模型在邏輯推理方面的性能仍然十分滯后。

去年 5 月「思維鏈」（Chain of Thought, CoT）橫空出世，有研究人員發(fā)現(xiàn)，只需要在 prompt 中加入「Let's think step by step」就能讓 GPT-3 的推理性能大幅提升，比如在 MultiArith 中就將推理準(zhǔn)確率從之前的 17.7% 一下提升到了 78.7%

但諸如 CoT 和 Selection Inference 等方法都是以前向（forward direction）的方式從公理（axioms）中搜索證明過(guò)程（proof）以推導(dǎo)出最終結(jié)論（conclusion），存在搜索空間組合爆炸的問(wèn)題，因此對(duì)于較長(zhǎng)的推理鏈，失敗率較高。

最近，Google Research 開發(fā)了一種反向鏈（Backward Chaining）算法 LAMBADA（LAnguage Model augmented BAckwarD chAining），將經(jīng)典推理文獻(xiàn)中得出的「反向推理效率明顯高于前向推理」這一結(jié)論應(yīng)用于語(yǔ)言模型（LM）中。

不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

論文鏈接：https://arxiv.org/ abs / 2212.13894

LAMBADA 將推理過(guò)程分解為四個(gè)子模塊，每個(gè)模塊都由 few-shot prompted 語(yǔ)言模型推理實(shí)現(xiàn)。

最終 LAMBADA 相比當(dāng)下 sota 的前向推理方法在兩個(gè)邏輯推理數(shù)據(jù)集上實(shí)現(xiàn)了顯著的性能提升，特別是在問(wèn)題要求深度和準(zhǔn)確的證明鏈情況下，LAMBADA 的性能提升更加明顯。

「反向推理」成版本答案？

邏輯推理，特別是對(duì)非結(jié)構(gòu)化自然文本的邏輯推理，是構(gòu)建自動(dòng)知識(shí)發(fā)現(xiàn)的基礎(chǔ)構(gòu)件，也是未來(lái)各種科學(xué)領(lǐng)域進(jìn)步的關(guān)鍵。

雖然許多 NLP 任務(wù)的發(fā)展都受益于預(yù)訓(xùn)練語(yǔ)言模型不斷擴(kuò)大的規(guī)模，但根據(jù)觀察，提升模型的尺寸對(duì)解決復(fù)雜推理問(wèn)題的提升十分有限。

在經(jīng)典文獻(xiàn)中，有兩種主要的邏輯推理方法：

1、前向鏈?zhǔn)酵评恚‵orward Chaining, FC），即從事實(shí)和規(guī)則出發(fā)，在做出新的推理并將其加入理論之間進(jìn)行迭代，直到目標(biāo)陳述可以被證明或推翻；

2、后向鏈?zhǔn)酵评恚˙ackward Chaining, BC），即從目標(biāo)出發(fā)，將其遞歸分解為子目標(biāo)，直到子目標(biāo)可以根據(jù)事實(shí)被證明或推翻。

以前用語(yǔ)言模型進(jìn)行推理的方法大多采用前向鏈?zhǔn)酵评淼乃悸?，要求從整個(gè)集合中選擇一個(gè)事實(shí)和規(guī)則的子集，這對(duì) LM 來(lái)說(shuō)可能是困難的，因?yàn)樗枰谝粋€(gè)大的空間里進(jìn)行組合搜索。

此外，決定何時(shí)停止搜索并宣布證明失敗在 FC 中也是非常困難的，有時(shí)甚至需要一個(gè)專門對(duì)中間標(biāo)簽進(jìn)行訓(xùn)練的模塊。

事實(shí)上，經(jīng)典的自動(dòng)推理文獻(xiàn)在很大程度上偏重于后向鏈?zhǔn)酵评砘蚰繕?biāo)導(dǎo)向的求證策略。

LAMBADA

LAMBADA 意為「反向鏈?zhǔn)郊夹g(shù)增強(qiáng)的語(yǔ)言模型」，研究人員通過(guò)實(shí)驗(yàn)證明了 BC 更適合于基于文本的演繹邏輯推理（deductive logical reasoning）。

BC 不需要大量的組合搜索來(lái)選擇子集，而且有更自然的停止搜索標(biāo)準(zhǔn)（halting criteria）。

LAMBADA 主要專注于對(duì)事實(shí)進(jìn)行自動(dòng)推理，即自然語(yǔ)言斷言，如「好人是紅色的」，這些斷言是連貫的（coherent），但不一定基于真實(shí)情況。

一個(gè)規(guī)則由自然語(yǔ)言聲明編寫，形式上可以改寫為「如果 P 那么 Q」，例如「粗暴的好人是紅色的」（Rough, nice people are red）可以改寫為「如果一個(gè)人是粗暴的好人，那么他們是紅色的」（If a person is rough and nice, then they are red）。

其中 P 被稱為規(guī)則的前項(xiàng)（antecedent），Q 被稱為規(guī)則的后項(xiàng)（consequent）。

一個(gè)理論 theory C 由事實(shí) F={f1, f2, . . , fn} 和規(guī)則 R={r1, r2, . . , rm} 組成，G 代表一個(gè)想根據(jù)事實(shí)和規(guī)則來(lái)證明或反駁的目標(biāo)。

例 1、一個(gè)帶有虛構(gòu)角色和規(guī)則的理論實(shí)例 C

F={"菲奧娜是好人"，"菲奧娜是粗人"}

R={"如果某人很聰明，那么他就是好人"，"粗暴的好人是紅色的"，"作為好人和紅色意味著他是圓的"}。

基于上述理論，人們可能想證明或反駁一個(gè)目標(biāo)，如「菲奧娜是紅色的？」。

后向鏈法推理

一條規(guī)則是否適用于一個(gè)目標(biāo)，是通過(guò)邏輯學(xué)中的一個(gè)叫做 unification 的操作來(lái)確定的。

例如，對(duì)于例 1 中的目標(biāo)「Fiona 是紅色的？」，第二條規(guī)則的后果與目標(biāo)相同，所以可以適用；但另外兩條規(guī)則的后果不同，所以不適用。

考慮例 1 中的理論和目標(biāo)，BC 從目標(biāo)「Fiona 是紅色的？」開始推理。

首先，BC 驗(yàn)證該目標(biāo)是否可以從任何事實(shí)中被證明或反駁。由于沒(méi)有任何事實(shí)可以證明或反駁這個(gè)目標(biāo)，所以接下來(lái)會(huì)驗(yàn)證這個(gè)目標(biāo)是否與任何規(guī)則的結(jié)果相統(tǒng)一，結(jié)果發(fā)現(xiàn)它與第二條規(guī)則「粗糙的好人是紅色的」相統(tǒng)一。

因此，該目標(biāo)可以被分解成兩個(gè)子目標(biāo)：1）菲奧娜是粗暴的嗎？和 2）菲奧娜是好人嗎？。

由于這兩個(gè)子目標(biāo)都可以從事實(shí)中得到證明，BC 的結(jié)論是原始目標(biāo)可以得到證明。

對(duì)于一個(gè)目標(biāo)，BC 的結(jié)果要么是證明，要么是否定，要么是不知道（例如目標(biāo)「菲奧娜很聰明？」）。

LAMBADA 中的語(yǔ)言模型

為了將 BC 用于基于文本的推理，研究人員引入了四個(gè)基于 LM 的模塊：事實(shí)檢查（Fact Check）、規(guī)則選擇（Rule Selection）、目標(biāo)分解（Goal Decomposition）和符號(hào)一致性（Sign Agreement）。

不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

事實(shí)檢查

給出理論中的一組事實(shí) F 和一個(gè)目標(biāo) G，事實(shí)檢查模塊驗(yàn)證是否存在一個(gè)事實(shí) f∈F，使得 f 包含 G（在這種情況下，目標(biāo)被證明）或者 f 包含 G 的否定（在這種情況下，目標(biāo)被否定）。

如果找不到這樣的事實(shí)，那么 G 的真相仍然是未知的。

事實(shí)檢查的實(shí)現(xiàn)包括兩個(gè)子模塊：第一個(gè)子模塊從與目標(biāo)最相關(guān)的事實(shí)集中選擇一個(gè)事實(shí)，第二個(gè)子模塊根據(jù)這個(gè)事實(shí)來(lái)驗(yàn)證目標(biāo)是否可以被證明或否定。

由于事實(shí)選擇子模塊在第一次嘗試時(shí)可能無(wú)法確定最佳的事實(shí)，如果在調(diào)用子模塊一輪后，目標(biāo)的真相仍然未知，可以刪除所選的事實(shí)，然后再次調(diào)用子模塊；這個(gè)過(guò)程可以重復(fù)多次。

規(guī)則選擇

給出理論中的一組規(guī)則 R 和一個(gè)目標(biāo) G，規(guī)則選擇模塊確定規(guī)則 r∈R，使 r 的結(jié)果與 G 相統(tǒng)一，然后用這些規(guī)則將目標(biāo)分解為子目標(biāo)。

如果不能確定這樣的規(guī)則，那么 G 的真相仍然是未知的。

規(guī)則選擇同樣包括兩個(gè)子模塊：第一個(gè)子模塊確定每個(gè)規(guī)則的結(jié)果（與目標(biāo)無(wú)關(guān)），第二個(gè)子模塊將規(guī)則的結(jié)果和目標(biāo)作為輸入，并確定哪一個(gè)與目標(biāo)相統(tǒng)一。

需要注意的是，由于 BC 的遞歸性質(zhì)，規(guī)則選擇模塊在證明一個(gè)目標(biāo)的過(guò)程中可能會(huì)被多次調(diào)用。由于識(shí)別每條規(guī)則的結(jié)果與目標(biāo)無(wú)關(guān)，這個(gè)子模塊只需要被調(diào)用一次。

目標(biāo)分解

給定一個(gè)規(guī)則 r 和一個(gè)目標(biāo) G，使 r 的結(jié)果與 G 統(tǒng)一，目標(biāo)分解模塊確定需要證明的子目標(biāo)，以使 G 被證明或被否定。

在成功證明 r 的前項(xiàng)的情況下，目標(biāo)是被證明還是被否定取決于目標(biāo)的符號(hào)（sign）是否與 r 的結(jié)果符號(hào)一致。

例如對(duì)于目標(biāo)「Fiona 是紅色的？」，由于目標(biāo)的符號(hào)與第二條規(guī)則的結(jié)果符號(hào)一致，并且規(guī)則的前項(xiàng)被證明，可以得出結(jié)論，目標(biāo)被證明。

符號(hào)一致性

給定一個(gè)規(guī)則 r 和一個(gè)目標(biāo) G，符號(hào)一致模塊驗(yàn)證 r 的結(jié)果符號(hào)是否與目標(biāo)的符號(hào)一致或不一致。

實(shí)驗(yàn)部分

研究人員選擇 Chain of Thought（CoT）、基于顯式推理的 sota 神經(jīng)推理方法、sota 模塊推理方法 Selection Inference（SI）作為對(duì)比基線模型。

實(shí)驗(yàn)的數(shù)據(jù)集采用 ProofWriter 和 PrOntoQA，這些數(shù)據(jù)集對(duì) LM 推理具有挑戰(zhàn)性，包含需要證明鏈長(zhǎng)度達(dá) 5 跳的例子，以及目標(biāo)既不能從提供的理論中證明也不能反駁的例子。

不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

實(shí)驗(yàn)結(jié)果顯示，LAMBADA 明顯優(yōu)于其他兩個(gè)基線，特別是在包含 UNKNOWN 標(biāo)簽的 ProofWriter-PUD 數(shù)據(jù)集上（與 CoT 相比有 44% 的相對(duì)改善，與 SI 在深度-5 上相比有 56% 的改善），以及在 PrOntoQA 的較高深度上（與 CoT 相比有 37% 的相對(duì)改善，與 SI 在深度-5 上相比有 113% 的改善）。

不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

這些結(jié)果顯示了 LAMBADA 在邏輯推理方面的優(yōu)點(diǎn)，也顯示了后向鏈（在 LAMBADA 中是推理的 backbone）與前向鏈（在 SI 中是 backbone）相比可能是更好的選擇。

這些結(jié)果還揭示了 CoT 方法在處理 UNKNOWN 標(biāo)簽時(shí)的一個(gè)缺陷：與標(biāo)簽為證明（PROVED）或否定（DISPROVED）的例子不同，對(duì)于標(biāo)簽為 UNKNOWN 的例子，沒(méi)有自然的思維鏈。

對(duì)于更深（3+）的證明鏈問(wèn)題上，在三個(gè)數(shù)據(jù)集上，SI 產(chǎn)生的預(yù)測(cè)接近于多數(shù)類預(yù)測(cè)。

可以發(fā)現(xiàn)，在二元情況下，它傾向于過(guò)度預(yù)測(cè) DISPROVED；在三元分類情況下，傾向于過(guò)度預(yù)測(cè) UNKNOWN，這使得它在 PrOntoQA 的深度-5 中的表現(xiàn)甚至比多數(shù)類更差，因?yàn)樵撋疃鹊?PROVED 標(biāo)簽比 DISPROVED 多。

不過(guò)研究人員也驚訝地發(fā)現(xiàn)，CoT 對(duì)于 ProofWriterPD 數(shù)據(jù)集的性能仍然相對(duì)較高，而且準(zhǔn)確率沒(méi)有降低。

總之，在這些數(shù)據(jù)集上，LAMBADA 具有更高的推理準(zhǔn)確性，與其他用虛假的證明痕跡找到正確結(jié)論的技術(shù)相比，LAMBADA 更有可能產(chǎn)生有效的推理鏈，同時(shí)也比其他基于 LM 的模塊化推理方法更有查詢效率。

研究人員表示，該實(shí)驗(yàn)結(jié)果強(qiáng)烈地表明，未來(lái)關(guān)于用 LM 進(jìn)行推理的工作應(yīng)該包括后向鏈或目標(biāo)導(dǎo)向的策略。

參考資料：

https://arxiv.org/abs/2212.13894

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era），編輯：LRS

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

「反向推理」成版本答案？

LAMBADA

后向鏈法推理

LAMBADA 中的語(yǔ)言模型

事實(shí)檢查

規(guī)則選擇

目標(biāo)分解

符號(hào)一致性

實(shí)驗(yàn)部分

相關(guān)文章

不要 think step by step！谷歌最新自然語(yǔ)言推理算法 LAMBADA ：「反向鏈推理」才是答案

「反向推理」成版本答案？