首頁 > 智能時代>人工智能

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

量子位 2024/9/21 14:46:27 責(zé)編：清源

評論：

“o1 發(fā)布后，一個新的范式產(chǎn)生了”。

其中關(guān)鍵，OpenAI 研究科學(xué)家、o1 核心貢獻者 Hyung Won Chung，剛剛就此分享了他在 MIT 的一次演講。

演講主題為“Don’t teach. Incentivize（不要教，要激勵），核心觀點是：

激勵 AI 自我學(xué)習(xí)比試圖教會 AI 每一項具體任務(wù)更重要

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

思維鏈作者 Jason Wei 迅速趕來打 call：

Hyung Won 識別新范式并完全放棄任何沉沒成本的能力給我留下了深刻的印象。
2022 年底，他意識到了強化學(xué)習(xí)的力量，并從那時起就一直在宣揚它。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

在演講中，Hyung Won 還分享了：

技術(shù)人員過于關(guān)注問題解決本身，但更重要的是發(fā)現(xiàn)重大問題；

硬件進步呈指數(shù)級增長，軟件和算法需要跟上；

當(dāng)前存在一個誤區(qū)，即人們正在試圖讓 AI 學(xué)會像人類一樣思考；

“僅僅擴展規(guī)?！蓖?strong>長期內(nèi)更有效；

……

下面奉上演講主要內(nèi)容。

對待 AI：授人以魚不如授人以漁

先簡單介紹下 Hyung Won Chung，從公布的 o1 背后人員名單來看，他屬于推理研究的基礎(chǔ)貢獻者。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

資料顯示，他是 MIT 博士（方向為可再生能源和能源系統(tǒng)），去年 2 月加入 OpenAI 擔(dān)任研究科學(xué)家。

加入 OpenAI 之前，他在 Google Brain 負(fù)責(zé)大語言模型的預(yù)訓(xùn)練、指令微調(diào)、推理、多語言、訓(xùn)練基礎(chǔ)設(shè)施等。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

在谷歌工作期間，曾以一作身份，發(fā)表了關(guān)于模型微調(diào)的論文。（思維鏈作者 Jason Wei 同為一作）

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

回到正題。在 MIT 的演講中，他首先提到：

通往 AGI 唯一可行的方法是激勵模型，使通用技能出現(xiàn)。

在他看來，AI 領(lǐng)域正處于一次范式轉(zhuǎn)變，即從傳統(tǒng)的直接教授技能轉(zhuǎn)向激勵模型自我學(xué)習(xí)和發(fā)展通用技能。

理由也很直觀，AGI 所包含的技能太多了，無法一一學(xué)習(xí)。（主打以不變應(yīng)萬變）

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

具體咋激勵呢？？

他以下一個 token 預(yù)測為例，說明了這種弱激勵結(jié)構(gòu)如何通過大規(guī)模多任務(wù)學(xué)習(xí)，鼓勵模型學(xué)習(xí)解決數(shù)萬億個任務(wù)的通用技能，而不是單獨解決每個任務(wù)。

他觀察到：

如果嘗試以盡可能少的努力解決數(shù)十個任務(wù)，那么單獨模式識別每個任務(wù)可能是最簡單的；
如果嘗試解決數(shù)萬億個任務(wù)，通過學(xué)習(xí)通用技能（例如語言、推理等）可能會更容易解決它們。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

對此他打了個比方，“授人以魚不如授人以漁”，用一種基于激勵的方法來解決任務(wù)。

Teach him the taste of fish and make him hungry.（教 AI 嘗嘗魚的味道，讓他餓一下）

然后 AI 就會自己出去釣魚，在此過程中，AI 將學(xué)習(xí)其他技能，例如耐心、學(xué)習(xí)閱讀天氣、了解魚等。

其中一些技能是通用的，可以應(yīng)用于其他任務(wù)。

面對這一“循循善誘”的過程，也許有人認(rèn)為還不如直接教來得快。

但在 Hyung Won 看來：

對于人類來說確實如此，但是對于機器來說，我們可以提供更多的計算來縮短時間。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

換句話說，面對有限的時間，人類也許還要在專家 or 通才之間做選擇，但對于機器來說，算力就能出奇跡。

他又舉例說明，《龍珠》里有一個設(shè)定：在特殊訓(xùn)練場所，角色能在外界感覺只是一天的時間內(nèi)獲得一年的修煉效果。

對于機器來說，這個感知差值要高得多。
因此，具有更多計算能力的強大通才通常比專家更擅長特殊領(lǐng)域。

原因也眾所周知，大型通用模型能夠通過大規(guī)模的訓(xùn)練和學(xué)習(xí)，快速適應(yīng)和掌握新的任務(wù)和領(lǐng)域，而不需要從頭開始訓(xùn)練。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

他還補充道，數(shù)據(jù)顯示計算能力大約每 5 年提高 10 倍。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

總結(jié)下來，Hyung Won 認(rèn)為核心在于：

模型的可擴展性

算力對加速模型進化至關(guān)重要

此外，他還認(rèn)為當(dāng)前存在一個誤區(qū)，即人們正在試圖讓 AI 學(xué)會像人類一樣思考。

但問題是，我們并不知道自己在神經(jīng)元層面是如何思考的。

機器應(yīng)該有更多的自主性來選擇如何學(xué)習(xí)，而不是被限制在人類理解的數(shù)學(xué)語言和結(jié)構(gòu)中。

在他看來，一個系統(tǒng)或算法過于依賴人為設(shè)定的規(guī)則和結(jié)構(gòu)，那么它可能難以適應(yīng)新的、未預(yù)見的情況或數(shù)據(jù)。

造成的結(jié)果就是，面對更大規(guī)?；蚋鼜?fù)雜的問題時，其擴展能力將會受限。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

回顧 AI 過去 70 年的發(fā)展，他總結(jié)道：

AI 的進步與減少人為結(jié)構(gòu)、增加數(shù)據(jù)和計算能力息息相關(guān)。

與此同時，面對當(dāng)前人們對 scaling Law 的質(zhì)疑，即認(rèn)為僅僅擴大計算規(guī)?？赡鼙徽J(rèn)為不夠科學(xué)或有趣。

Hyung Won 的看法是：

在擴展一個系統(tǒng)或模型的過程中，我們需要找出那些阻礙擴展的假設(shè)或限制條件。

舉個例子，在機器學(xué)習(xí)中，一個模型可能在小數(shù)據(jù)集上表現(xiàn)良好，但是當(dāng)數(shù)據(jù)量增加時，模型的性能可能會下降，或者訓(xùn)練時間會變得不可接受。

這時，可能需要改進算法，優(yōu)化數(shù)據(jù)處理流程，或者改變模型結(jié)構(gòu)，以適應(yīng)更大的數(shù)據(jù)量和更復(fù)雜的任務(wù)。

也就是說，一旦識別出瓶頸，就需要通過創(chuàng)新和改進來替換這些假設(shè)，以便模型或系統(tǒng)能夠在更大的規(guī)模上有效運行。

訓(xùn)練 VS 推理：效果相似，推理成本卻便宜 1000 億倍

除了上述，o1 另一核心作者 Noam Brown 也分享了一個觀點：

訓(xùn)練和推理對模型性能提升作用相似，但后者成本更低，便宜 1000 億倍。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

這意味著，在模型開發(fā)過程中，訓(xùn)練階段的資源消耗非常巨大，而實際使用模型進行推理時的成本則相對較低。

有人認(rèn)為這凸顯了未來模型優(yōu)化的潛力。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

不過也有人對此持懷疑態(tài)度，認(rèn)為二者壓根沒法拿來對比。

這是一個奇怪的比較。一個是邊際成本，另一個是固定成本。這就像說實體店比其中出售的商品貴 500000 倍。

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

對此，你怎么看？

Hyung Won Chung 演講 PPT：

https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2d1161c9c52_0_20

參考鏈接：

[1]https://x.com/hwchung27/status/1836842717302943774
[2]https://x.com/tsarnick/status/1836215965912289306

本文來自微信公眾號：量子位（ID：QbitAI），作者：一水

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

o1 核心作者 MIT 演講：激勵 AI 自我學(xué)習(xí)，比試圖教會 AI 每一項任務(wù)更重要

對待 AI：授人以魚不如授人以漁

訓(xùn)練 VS 推理：效果相似，推理成本卻便宜 1000 億倍

相關(guān)文章

訓(xùn)練 VS 推理：效果相似，推理成本卻便宜 1000 億倍