設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

世界模型?OpenAI 神秘 Q * 引爆整個 AI 社區(qū),全網(wǎng)大佬發(fā)文熱議

新智元 2023/11/26 7:46:21 責(zé)編:問舟

傳聞中 OpenAI 的 Q* 已經(jīng)引得 AI 大佬輪番下場。AI2 研究科學(xué)家 Nathan Lambert 和英偉達(dá)高級科學(xué)家 Jim Fan 都激動地寫下長文,猜測 Q * 和思維樹、過程獎勵模型、AlphaGo 有關(guān)。

人類離 AGI,已是臨門一腳了?

OpenAI 的神秘 Q * 項(xiàng)目,已經(jīng)引爆整個 AI 社區(qū)!

疑似接近 AGI,因?yàn)榫薮笥嬎阗Y源能解決某些數(shù)學(xué)問題,讓 Sam Altman 出局董事會的導(dǎo)火索,有毀滅人類風(fēng)險…… 這些元素單拎出哪一個來,都足夠炸裂。

無怪乎 Q * 項(xiàng)目曝出三天后,熱度還在持續(xù)上升,已經(jīng)引起了全網(wǎng) AI 大佬的探討。

AI2 研究科學(xué)家 Nathan 激動地寫出一篇長文,猜測 Q 假說應(yīng)該是關(guān)于思想樹 + 過程獎勵模型。而且,Q * 假說很可能和世界模型有關(guān)!

幾小時后,英偉達(dá)高級科學(xué)家 Jim Fan 也發(fā)出長文分析,跟 Nathan 的看法不謀而合,略有不同的是,Jim Fan 的著重點(diǎn)是和 AlphaGo 的類比。

對于 Q*,Jim Fan 發(fā)出了如此贊嘆:在我投身人工智能領(lǐng)域的十年中,我從來沒見過有這么多人對一個算法有如此多的想象!即使它只有一個名字,沒有任何論文、數(shù)據(jù)或產(chǎn)品。

相比之下,圖靈三巨頭 LeCun 則認(rèn)為,提升大 LLM 可靠性的一個主要挑戰(zhàn)是,利用規(guī)劃策略取代自回歸 token 預(yù)測。

幾乎所有頂級實(shí)驗(yàn)室都在這方面進(jìn)行研究,而 Q * 則很可能是 OpenAI 在規(guī)劃領(lǐng)域的嘗試。

以及,請忽略那些關(guān)于 Q * 的毫無根據(jù)的討論。

對此,Jim Fan 深表贊同:擔(dān)心「通過 Q * 實(shí)現(xiàn) AGI」是毫無根據(jù)的。

「AlphaGo 式搜索和 LLM 的結(jié)合,是解決數(shù)學(xué)和編碼等特定領(lǐng)域的有效方法,同時還能提供基準(zhǔn)真相的信號。但在正式探討 AGI 之前,我們首先需要開發(fā)新的方法,將世界模型和具身智能體的能力整合進(jìn)去?!?/p>

Q-Learning 忽然大火

兩天前,外媒曝出,OpenAI 的神秘 Q * 項(xiàng)目,已現(xiàn) AGI 雛形。

突然間,一項(xiàng)來自 1992 年的技術(shù) ——Q-learning,就成為了大家競相追逐的焦點(diǎn)。

簡單來說,Q-learning 是一種無模型的強(qiáng)化學(xué)習(xí)算法,旨在學(xué)習(xí)特定狀態(tài)下某個動作的價值。其最終目標(biāo)是找到最佳策略,即在每個狀態(tài)下采取最佳動作,以最大化隨時間累積的獎勵。

在人工智能領(lǐng)域,尤其是在強(qiáng)化學(xué)習(xí)中,Q-learning 代表了一種重要的方法論。

很快,這個話題引發(fā)了各路網(wǎng)友的激烈討論:

斯坦福博士 Silas Alberti 猜測,它很可能是基于 AlphaGo 式蒙特卡羅樹搜索 token 軌跡。下一個合乎邏輯的步驟是以更有原則的方式搜索 token 樹。這在編碼和數(shù)學(xué)等環(huán)境中尤為合理。

隨后,更多人猜測,Q * 指的就是 A * 算法和 Q 學(xué)習(xí)的結(jié)合!

甚至有人發(fā)現(xiàn),Q-Learning 竟然和 ChatGPT 成功秘訣之一的 RLHF,有著千絲萬縷的聯(lián)系!

隨著幾位 AI 大佬的下場,大家的觀點(diǎn),愈發(fā)不謀而合了。

AI 大佬千字長文分析

對于引得眾人好奇無比的 Q * 假說,AI2 研究科學(xué)家 Nathan Lambert 寫了如下一篇長文分析 ——《Q* 假說:思維樹推理、過程獎勵模型和增強(qiáng)合成數(shù)據(jù)》。

文章地址:https://www.interconnects.ai/ p / q-star

Lambert 猜測,如果 Q*(Q-Star)是真的,那么它顯然是 RL 文獻(xiàn)中的兩個核心主題的合成:Q 值和 A*(一種經(jīng)典的圖搜索算法)。

A * 算法的一個例子

很多天來,坊間關(guān)于 Q 冒出了很多猜測,有一種觀點(diǎn)認(rèn)為,Q 指的是最優(yōu)策略的值函數(shù),不過在 Lambert 看來這不太可能,因?yàn)?OpenAI 已經(jīng)幾乎泄露了所有內(nèi)容。

Lambert 將自己的猜測稱為「錫帽理論」,即 Q 學(xué)習(xí)和 A * 搜索的模糊合并。

所以,正在搜索的是什么?Lambert 相信,OpenAI 應(yīng)該是在通過思想樹推理來搜索語言 / 推理步驟,來做一些強(qiáng)大的事情。

如果僅是如此,為何會引起如此大的震動和恐慌呢?

他覺得 Q * 被夸大的原因是,它將大語言模型的訓(xùn)練和使用與 Deep RL 的核心組件聯(lián)系起來,而這些組件,成功實(shí)現(xiàn)了 AlphaGo 的功能 —— 自我博弈和前瞻性規(guī)劃。

其中,自我博弈(Self-play)理論是指,智能體可以和跟自己版本略有不同的另一個智能體對戰(zhàn),來改善游戲玩法,因?yàn)樗龅降那闆r會越來越有挑戰(zhàn)性。

在 LLM 領(lǐng)域,自我博弈理論看起來就像是 AI 反饋。

前瞻性規(guī)劃(Look-ahead planning),是指使用世界模型來推理未來,并產(chǎn)生更好的行動或輸出。

這種理論基于模型預(yù)測控制(MPC)和蒙特卡洛樹搜索(MCTS),前者通常用于連續(xù)狀態(tài),后者適用于離散動作和狀態(tài)。

https://www.researchgate.net/publication/320003615_MCTSUCT_in_solving_real-life_problems

Lambert 之所以做出這種推測,是基于 OpenAI 和其他公司最近發(fā)布的工作。這些工作,回答了這樣兩個問題 ——

1. 我們?nèi)绾螛?gòu)建一個我們自己可以搜索的語言表示?

2. 在分隔和有意義的語言塊(而不是整個語言塊)上,我們怎樣才能構(gòu)建一個價值概念?

如果想明白了這兩個問題,我們就該清楚,應(yīng)該如何使用用于 RLHF 的 RL 方法 —— 我們用 RL 優(yōu)化器來微調(diào)語言模型,并且通過模塊化獎勵,獲得更高質(zhì)量的生成(而不是像今天那樣,完整的序列)。

使用 LLM 進(jìn)行模塊化推理:思維樹(ToT)提示

現(xiàn)在,讓模型「深呼吸」和「一步步思考」之類的方法,正在擴(kuò)展到利用并行計算和啟發(fā)式進(jìn)行推理的高級方法上。

思維樹是一種提示語言模型創(chuàng)建推理路徑樹的方法,這些路徑可能會、也可能不會收斂到正確答案。

實(shí)現(xiàn)思維樹的關(guān)鍵創(chuàng)新,就是推理步驟的分塊,以及提示模型創(chuàng)建新的推理步驟。

思維樹或許是第一個提高推理性能的「遞歸」提示技術(shù),聽起來非常接近人工智能安全所關(guān)注的遞歸自我改進(jìn)模型。

https://arxiv.org/abs/2305.10601

使用推理樹,就可以應(yīng)用不同的方法來對每個頂點(diǎn)或節(jié)點(diǎn)進(jìn)行評分,或者對最終路徑進(jìn)行采樣。

它可以基于最一致答案的最小長度,或者需要外部反饋的復(fù)雜事物,而這恰恰就把我們帶到了 RLHF 的方向。

用思維樹玩 24 點(diǎn)游戲

生成中的細(xì)粒度獎勵標(biāo)簽:過程獎勵模型(PRM)

迄今為止,大多數(shù) RLHF,都是通過給模型的整個響應(yīng)打分而完成的。

但對于具有 RL 背景的人,這種方法很令人失望,因?yàn)樗拗屏?RL 方法對文本的每個子組件的值建立聯(lián)系的能力。

有人指出,在未來,這種多步驟優(yōu)化將在多個對話回合的層面上進(jìn)行,但由于需要有人類或一些提示源參與循環(huán),整個過程仍然很牽強(qiáng)。

這可以很容易地擴(kuò)展到自我博弈風(fēng)格的對話上,但很難給出 LLM 一個目標(biāo),讓它轉(zhuǎn)化為持續(xù)改進(jìn)的自我博弈動態(tài)。

畢竟,我們想用 LLM 做的大多數(shù)事情還是重復(fù)性任務(wù),并不是像圍棋那樣,需要達(dá)到近乎無限的性能上限。

不過,有一種 LLM 用例,可以自然地抽象為包含的文本塊,那就是分步推理。而最好的例子,就是解決數(shù)學(xué)問題。

過去 6 個月內(nèi),過程獎勵模型(PRM)一直是 RLHF 人員熱烈探討的話題。

關(guān)于 PRM 的論文很多,但很少有論文會提到,如何將它們與 RL 結(jié)合使用。

PRM 的核心思想,就是為每個推理步驟分配一個分?jǐn)?shù),而不是一個完整的信息。

OpenAI 的論文「Let's Verify Step by Step」中,就有這樣一個例子 ——

在這個過程中,他們使用的反饋界面長這個樣子,非常有啟發(fā)性。

這樣,就可以通過對最大平均獎勵或其他指標(biāo)進(jìn)行采樣,而不是僅僅依靠一個分?jǐn)?shù),對推理問題的生成進(jìn)行更精細(xì)的調(diào)整。

使用「N 最優(yōu)采樣」(Best-of-N sampling),即生成一系列次數(shù),并使用獎勵模型得分最高的一次,PRM 在推理任務(wù)中的表現(xiàn),要優(yōu)于標(biāo)準(zhǔn) RM。

(注意,它正是 Llama 2 中「拒絕采樣」Rejection Sampling 的表兄弟。)

而且迄今為止,大多數(shù) PRM 僅展示了自己在推理時的巨大作用。但如果把它用于訓(xùn)練進(jìn)行優(yōu)化,就會發(fā)揮真正的威力。

而為了創(chuàng)建最豐富的優(yōu)化設(shè)置,就需要能夠生成用于評分和學(xué)習(xí)的多種推理路徑。

這,就是思維樹的用武之地。

人氣極高的數(shù)學(xué)模型 Wizard-LM-Math,就是使用 PRM 進(jìn)行訓(xùn)練的:https://arxiv.org/ abs / 2308.09583

所以,Q * 可能是什么?

Nathan Lambert 猜測,Q * 似乎正在使用 PRM,對 ToT 推理數(shù)據(jù)進(jìn)行評分,然后再使用 Offline RL 進(jìn)行優(yōu)化。

這與現(xiàn)有的 RLHF 工具沒有太大區(qū)別,它們用的是 DPO 或 ILQL 等離線算法,這些算法在訓(xùn)練期間不需要從 LLM 生成。

RL 算法看到的「軌跡」,就是推理步驟的序列,因此,我們得以用多步方式,而不是通過上下文,來執(zhí)行 RLHF。

現(xiàn)有的傳言顯示,OpenAI 正在將離線 RL 用于 RLHF,這似乎不是一個很重大的飛躍。

它的復(fù)雜性在于要收集正確的提示,讓模型生成出色的推理,而最重要的,就是準(zhǔn)確地給數(shù)以萬計的響應(yīng)評分。

而傳聞中的龐大計算資源,就是使用 AI 而非人類,來給每一步打分。

的確,合成數(shù)據(jù)才是王道,使用樹而非單一寬度路徑(思維鏈),就可以為以后越來越多的選擇,給出正確答案。

如果傳言是真的,OpenAI 和其他模型的差距,無疑會很可怕。

畢竟,現(xiàn)在大多數(shù)科技公司,比如谷歌、Anthropic、Cohere 等,創(chuàng)建預(yù)訓(xùn)練數(shù)據(jù)集用的還是過程監(jiān)督或類似 RLAIF 的方法,輕易就會耗費(fèi)數(shù)千個 GPU 小時。

超大規(guī)模 AI 反饋的數(shù)據(jù)未來

根據(jù)外媒 The Information 的傳言,Ilya Sutskever 的突破使 OpenAI 解決了數(shù)據(jù)荒難題,這樣就有了足夠的高質(zhì)量數(shù)據(jù)來訓(xùn)練下一代新模型。

而這些數(shù)據(jù),就是用計算機(jī)生成的數(shù)據(jù),而非真實(shí)世界的數(shù)據(jù)。

另外,Ilya 多年研究的問題,就是如何讓 GPT-4 等語言模型解決涉及推理的任務(wù),如數(shù)學(xué)或科學(xué)問題。

Nathan Lambert 表示,如果自己猜得沒錯,Q * 就是生成的合成推理數(shù)據(jù)。

通過類似剔除抽樣(根據(jù) RM 分?jǐn)?shù)進(jìn)行篩選)的方法,可以選出最優(yōu)秀的樣本。而通過離線 RL,生成的推理可以在模型中得到改進(jìn)。

對于那些擁有優(yōu)質(zhì)大模型和大量算力資源的機(jī)構(gòu)來說,這是一個良性循環(huán)。

結(jié)合 GPT-4 給大家的印象,數(shù)學(xué)、代碼、推理,都應(yīng)該是最從 Q * 技術(shù)受益的主題。

什么是最有價值的推理 token?

許多 AI 研究者心中永恒的問題是:究竟哪些應(yīng)用值得在推理計算上花費(fèi)更多成本?

畢竟,對于大多數(shù)任務(wù)(如閱讀文章、總結(jié)郵件)來說,Q * 帶來的提升可能不值一提。

但對于生成代碼而言,使用最佳模型,顯然是值得的。

Lambert 表示,自己腦子中有一種根深蒂固的直覺,來自于和周圍人餐桌上的討論 —— 使用 RLHF 對擴(kuò)展推理進(jìn)行訓(xùn)練,可以提高下游性能,而無需讓模型一步一步思考。

如果 Q * 中實(shí)現(xiàn)了這一點(diǎn),OpenAI 的模型,無疑會顯示出重大的飛躍。

Jim Fan:Q * 可能的四大核心要素

Nathan 在我之前幾個小時發(fā)布了一篇博客,并討論了非常相似的想法:思想樹 + 過程獎勵模型。他的博客列出了更多的參考文獻(xiàn),而我更傾向于與 AlphaGo 的類比。

Jim Fan 表示,要理解搜索和學(xué)習(xí)結(jié)合的強(qiáng)大威力,我們需要先回到 2016 年,這個人工智能歷史上的輝煌時刻。

在重新審視 AlphaGo 時,可以看到它包含了四個關(guān)鍵要素:

1. 策略神經(jīng)網(wǎng)絡(luò)(Policy NN,學(xué)習(xí)部分):評估每種走法獲勝的可能性,并挑選好的走法。

2. 價值神經(jīng)網(wǎng)絡(luò)(Value NN,學(xué)習(xí)部分):用于評估棋局,從任意合理的布局中預(yù)測勝負(fù)。

3. 蒙特卡羅樹搜索(MCTS,搜索部分):利用策略神經(jīng)網(wǎng)絡(luò)模擬從當(dāng)前位置出發(fā)的多種可能的走法,然后匯總這些模擬的結(jié)果來決定最有希望的走法。這是一個「慢思考」環(huán)節(jié),與大語言模型(LLM)中的快速 token 采樣形成鮮明對比。

4. 推動整個系統(tǒng)的真實(shí)信號:在圍棋中,這個信號就像「誰獲勝」這種二元標(biāo)簽一樣簡單,由一套固定的游戲規(guī)則所決定。你可以把它想象成一種能量源,持續(xù)地推動著學(xué)習(xí)的進(jìn)程。

那么,這些組件是如何相互作用的呢?

AlphaGo 通過自我博弈(即與自己之前的版本對弈)來學(xué)習(xí)。

隨著自我博弈的持續(xù),策略神經(jīng)網(wǎng)絡(luò)和價值神經(jīng)網(wǎng)絡(luò)都在不斷迭代中得到改善:隨著策略在選擇走法上變得更精準(zhǔn),價值神經(jīng)網(wǎng)絡(luò)也能獲得更高質(zhì)量的數(shù)據(jù)進(jìn)行學(xué)習(xí),進(jìn)而為策略提供更有效的反饋。更強(qiáng)大的策略也有助于 MCTS 探索出更佳的策略。

這些最終構(gòu)成了一個巧妙的「永動機(jī)」。通過這種方式,AlphaGo 能自我提升,最終在 2016 年以 4-1 的成績擊敗了人類世界冠軍李世石。僅僅通過模仿人類的數(shù)據(jù),人工智能是無法達(dá)到超越人類的水平的。

對于 Q * 來說,又會包含哪四個核心組件呢?

1. 策略神經(jīng)網(wǎng)絡(luò)(Policy NN):這將是 OpenAI 內(nèi)部最強(qiáng)大的 GPT,負(fù)責(zé)實(shí)現(xiàn)解決數(shù)學(xué)問題的思維過程。

2. 價值神經(jīng)網(wǎng)絡(luò)(Value NN):這是另一個 GPT,用來評估每一個中間推理步驟的正確性。

OpenAI 在 2023 年 5 月發(fā)布了一篇名為「Let's Verify Step by Step」的論文,作者包括 Ilya Sutskever、John Schulman 和 Jan Leike 等知名大佬。雖然它不像 DALL-E 或 Whisper 那樣知名,但卻為我們提供了不少線索。

在論文中,作者提出了「過程監(jiān)督獎勵模型」(Process-supervised Reward Models,PRM),它為思維鏈中的每一步提供反饋。相對的是「結(jié)果監(jiān)督獎勵模型」(Outcome-supervised Reward Models,ORM),它只對最終的整體輸出進(jìn)行評估。

ORM 是 RLHF 的原始獎勵模型,但它的粒度太粗,不適合對長響應(yīng)中的各個部分進(jìn)行適當(dāng)?shù)脑u估。換句話說,ORM 在功勞分配方面表現(xiàn)不佳。在強(qiáng)化學(xué)習(xí)文獻(xiàn)中,我們將 ORM 稱為「稀疏獎勵」(僅在最后給予一次),而 PRM 則是「密集獎勵」,能夠更平滑地引導(dǎo) LLM 朝我們期望的行為發(fā)展。

3. 搜索:不同于 AlphaGo 的離散狀態(tài)和動作,LLM 運(yùn)行在一個復(fù)雜得多的空間中(所有合理字符串)。因此,我們需要開發(fā)新的搜索方法。

在思維鏈(CoT)的基礎(chǔ)上,研究界已經(jīng)開發(fā)出了一些非線性變體:

- 思維樹(Tree of Thought):就是將思維鏈和樹搜索結(jié)合在一起

- 思維圖(Graph of Thought):將思維鏈和圖結(jié)合,就可以得到一個更為復(fù)雜的搜索運(yùn)算符

4. 真實(shí)信號:(幾種可能)

(a)每個數(shù)學(xué)問題都有一個已知答案,OpenAI 可能已經(jīng)從現(xiàn)有的數(shù)學(xué)考試或競賽中收集了大量的數(shù)據(jù)。

(b)ORM 本身可以作為一種真實(shí)信號,但這樣可能會被利用,從而「失去維持學(xué)習(xí)所需的能量」。

(c)形式化驗(yàn)證系統(tǒng),如 Lean 定理證明器,可以把數(shù)學(xué)問題轉(zhuǎn)化為編程問題,并提供編譯器反饋。

就像 AlphaGo 那樣,策略 LLM 和價值 LLM 可以通過迭代相互促進(jìn)進(jìn)步,并在可能的情況下從人類專家的標(biāo)注中學(xué)習(xí)。更優(yōu)秀的策略 LLM 將幫助思維樹搜索發(fā)現(xiàn)更好的策略,這反過來又能為下一輪迭代收集更優(yōu)質(zhì)的數(shù)據(jù)。

Demis Hassabis 之前提到過,DeepMind 的 Gemini 將采用「AlphaGo 式算法」來增強(qiáng)推理能力。即使 Q * 不是我們所想象的那樣,谷歌也一定會用自己的算法迎頭趕上。

Jim Fan 表示,以上只是關(guān)于推理的部分。目前并沒有跡象表明 Q * 在寫詩、講笑話或角色扮演方面會更具創(chuàng)造性。本質(zhì)上,提高創(chuàng)造力是人的事情,因此自然數(shù)據(jù)仍將勝過合成數(shù)據(jù)。

是時候解決最后一章了

而深度學(xué)習(xí)專家 Sebastian Raschka 對此表示 ——

如果你出于任何原因,不得不在這個周末學(xué)習(xí) Q-learning,并且碰巧在你的書架上有一本「Machine Learning with PyTorch and Scikit-Learn」,那么,現(xiàn)在是時候解決最后一章了。

參考資料:

  • https://www.interconnects.ai/p/q-star

  • https://twitter.com/DrJimFan/status/1728100123862004105

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:openai

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知