OpenAI 博士級(jí)別的智能,真的實(shí)現(xiàn)了!一位 UCI 物理學(xué)博士實(shí)測 o1,發(fā)現(xiàn)自己用時(shí) 1 年完成的博士論文代碼,竟被 AI 在 1 個(gè)小時(shí)之內(nèi)實(shí)現(xiàn)了。
o1 模型已經(jīng)強(qiáng)到,能夠直出博士論文代碼了!來自加州大學(xué)歐文分校(UCI)的物理學(xué)博士 Kyle Kabasares,實(shí)測 o1 preview+mini 后發(fā)現(xiàn):
自己肝了大約 1 年的博士代碼,o1 竟在 1 小時(shí)內(nèi)完成了。
他稱,在大約 6 次提示后,o1 便創(chuàng)建了一個(gè)運(yùn)行版本的 Python 代碼,描述出研究論文「方法」部分的內(nèi)容。
雖然 AI 生成的代碼框架,模擬了 Kabasares 實(shí)際代碼功能,但它使用的是「合成數(shù)據(jù)」,并非真實(shí)的天文數(shù)據(jù)。
不過,o1 能夠在這么短時(shí)間輸出復(fù)雜代碼,足以震撼。視頻右下角中,Kabasares 連連喊出「oh my god」,各種難以形容的動(dòng)作表情,被震驚到懷疑人生。
YouTube 視頻一出,便在全網(wǎng)掀起熱議,網(wǎng)友們紛紛表示太瘋狂了。
好巧不巧的是,o1 在最新門薩智商測試中,IQ 水平竟超過了 120 分。35 個(gè)智商題,答對了 25 道,把其他模型甩出好幾條街。
然而,這僅僅是 o1 模型的 preview 版本。OpenAI 研究人員 David Dohan 曾發(fā)文暗示,一個(gè)月后,o1 模型還將有全新的升級(jí)版本。
屆時(shí),還不知 o1 性能,將有多么逆天?!
物理學(xué)博士論文,AI 1 小時(shí)直出 200 行代碼
2022 年,物理學(xué)博士 Kabasares 以第一作者身份,在「天文物理期刊」發(fā)表了這篇關(guān)于,通過對天文數(shù)據(jù)建模來測量黑洞質(zhì)量的論文。
當(dāng)然,這篇研究不僅僅是寫代碼,但實(shí)現(xiàn)這段代碼,是 Kabasares 博士第一年的關(guān)鍵突破。
可以說,在他博士研究的階段的第一年(2018 年 7 月-2019 年 4 月),花費(fèi)了大量時(shí)間,才讓這段代碼初版正確運(yùn)行起來。
這也是,為什么 o1 能在 1 小時(shí)內(nèi),給出一個(gè)可運(yùn)行的 Python 代碼,讓 Kabasares 印象深刻。
視頻中,看到 o1 輸出的代碼后,Kabasares 緩了好大一陣兒,才開始接下來的解釋。
他向 ChatGPT o1 提供了論文中,「方法」部分的內(nèi)容(即第 4 節(jié)),并提示閱讀我的論文,根據(jù)所給信息,寫出一段 Python 運(yùn)行代碼。
他多次強(qiáng)調(diào),自己沒有向 o1 展示自己代碼。在于 ChatGPT 對話頁面中,Kabasares 向大家展示,并細(xì)數(shù)了下 o1 是在 6 次提示下,完成 200 行代碼。
不過,他也提出警告,實(shí)際上還需要我們自己去做一些額外的工作。就像論文中這個(gè)曲線圖,還得需要在另一個(gè)軟件,比如銀河圖像軟件中完成。
當(dāng)網(wǎng)友詢問到,有沒有可能 o1 就著你自己的代碼,完成的訓(xùn)練?
Kabasares 認(rèn)為,o1 輸出的 200 行代碼,與自己 1100 行代碼有著很大的不同,這是論文代碼「最簡版本」。
深夜測試,o1 挑戰(zhàn)大學(xué)、博士物理題
為此,Kabasares 又發(fā)了第二彈視頻,向所有人解釋 o1 可能真的沒有接受過數(shù)據(jù)訓(xùn)練。
值得一提的是,他從辦公室拿到的私密文件,是由教授親自設(shè)計(jì)的天體物理學(xué)問題。這些題目,都是 Kabasares 在博士期間完成的,并沒有發(fā)布到互聯(lián)網(wǎng)上。
他專門為 o1 出了一個(gè)測試集,一共有 4 道題目。
而在沒有訓(xùn)練數(shù)據(jù)的情況下,o1 輸出的結(jié)果不用說。甚至,有的題它僅在 16 秒內(nèi),完成了解答。
還記得,OpenAI CTO Mira Murati 在接受采訪中表示,GPT-4 之后的新模型將達(dá)到博士級(jí)別的智能。
o1 現(xiàn)在的表現(xiàn),已經(jīng)是關(guān)鍵的一瞥。
代碼編程賽,大師級(jí)別
作為 OpenAI 的研究主管兼現(xiàn)任的 IOI 美國隊(duì)教練,Mark Chen 分享了 o1 模型在 Codeforces 比賽上的最新進(jìn)展。
在 Codeforces 昨天的實(shí)時(shí)比賽中,一位名為 AryanDLuffy 的選手使用了 o1-mini 模型參加比賽,結(jié)果相當(dāng)驚艷。
用 Mark Chen 的話來說,達(dá)到了「接近大師級(jí)別的表現(xiàn)」。
AryanDLuffy 發(fā)帖表示,自己沒有進(jìn)行任何提示工程,僅僅是給出問題陳述,并告訴模型用 C++ 解題。
7 道題目中,o1-mini 僅在 B2、D 和 E2 遇到了困難,其中 D 和 E2 是不少排名前 50 的選手也沒能得分的,也是提交人數(shù)最少的兩道題目。
最終,o1-mini 幫助 AryanDLuffy 獲得了 3922 分的總成績,在超過 16 萬參賽者中排名 277,也就是排名在前 0.17%。
這遠(yuǎn)遠(yuǎn)超過了 OpenAI 自己做的基準(zhǔn)測試結(jié)果。o1 模型在他們的模擬 Codeforces 比賽中還只是超過了 89% 的人類選手。
277 的排名相比 AryanDLuffy 本人之前的紀(jì)錄提高了 158 位,達(dá)到了 4 年來最大的進(jìn)步幅度。
對此,Mark Chen 和很多網(wǎng)友的想法是,IMO 和 Codeforces 的競賽題也許可以作為新型的 LLM 基準(zhǔn)測試。然而,Codeforces 的主辦方擔(dān)心的是另一件事。
競賽創(chuàng)始人 Mike Mirzayanov 為此特地制定了一條新規(guī):禁止使用 GPT、Gemini、Gemma、Llama 和 Claude 等各種模型來解決 Codeforces 競賽中的編程問題。
但是這條新規(guī)并不是要求參賽者完全摒棄 AI,他們依舊可以讓模型輔助翻譯問題陳述,或者向 Copilot 尋求語法幫助和次要的編碼建議。
簡而言之,競賽問題的核心邏輯、算法,以及 bug 的診斷調(diào)試,都必須由人類選手獨(dú)立完成,CF 也會(huì)進(jìn)行作弊檢測。在非競爭性問題中,AI 工具的使用則完全不受限制。
但也有用戶指出,作弊檢測實(shí)質(zhì)上很難執(zhí)行,參賽者簡單修改一下 AI 生成的代碼就可以「逃過法眼」。競爭性編程競賽的未來,很大程度上決定于選手們自己能否守信。
CF 也表示,會(huì)持續(xù)關(guān)注 AI 技術(shù)的進(jìn)展,并根據(jù)需要及時(shí)調(diào)整規(guī)則。
在博文中,Mirzayanov 將神經(jīng)網(wǎng)絡(luò)的進(jìn)展稱為「技術(shù)奇跡」,因?yàn)椴痪们斑@些模型還很難完成競賽中最簡單的任務(wù),但現(xiàn)在卻達(dá)到了不容忽視的高度。
他表示,「我們有理由相信,這種進(jìn)步會(huì)持續(xù)下去,AI 可能會(huì)在編程競賽領(lǐng)域繼續(xù)取得新的突破?!?/p>
陶哲軒實(shí)測后續(xù)
除了 Codeforces,陶哲軒大神也表示,由于大家對他之前測試的興趣,因此繼續(xù)放出了一些其他的 o1 preview 實(shí)驗(yàn)結(jié)果。
第一個(gè)實(shí)驗(yàn),是找術(shù)語。
2010 年,我正在尋找「乘法積分」的正確術(shù)語,但當(dāng)時(shí)沒有用搜索引擎找到。于是我轉(zhuǎn)而在 MathOverflow 上提出了問題,并從人類專家那里得到了滿意的答案:
14 年后的今天,陶哲軒再次向 o1 模型提出了相同的問題,問題表述都和 MathOverflow 上的帖子幾乎一模一樣。
相比人類專家,o1 給出的答案更加全面而且完美。不僅包含了 5 個(gè)可能的術(shù)語,還附上了相應(yīng)的數(shù)學(xué)表示、應(yīng)用領(lǐng)域和參考文獻(xiàn)。
陶哲軒表示,雖然這篇 MathOverflow 上的帖子可能已經(jīng)包含在 o1 的訓(xùn)練數(shù)據(jù)中了,但依舊能展現(xiàn)模型在語義搜索方面的強(qiáng)大功能,而且搜集、總結(jié)出的答案的質(zhì)量可以與 MathOverflow 這類專業(yè)的問答網(wǎng)站相當(dāng)。
另一個(gè)實(shí)驗(yàn)則更具創(chuàng)造性,與陶哲軒本人的研究直接相關(guān)。
作為另一個(gè)小實(shí)驗(yàn),我給了 o1 我最近的博客文章的前半部分,其中總結(jié)了之前我自己能夠解決的鄂爾多斯問題的進(jìn)展。
要將之前的部分進(jìn)展轉(zhuǎn)換為全面的解決方案,仍缺失一些要素,我要求 o1 模型找到這些轉(zhuǎn)換要素,但結(jié)果有點(diǎn)令人失望。
本質(zhì)上,模型提出的策略與博客中重述的最新研究是相同的,并針對該策略沒有提供任何創(chuàng)造性的改變。
總的來說,我覺得雖然 LLM 工具有一定的能力,可以隨機(jī)生成創(chuàng)造性策略,但這方面的 LLM 工具仍然相當(dāng)薄弱。
多篇論文闡述 o1 運(yùn)作機(jī)制,DeepMind 上大分
o1 模型發(fā)布不到一周,我們就已經(jīng)見證了這么多驚人的用例,AI 技術(shù)界對 o1 背后的機(jī)制和原理也是眾說紛紜。
前谷歌搜索工程師、Menlo Ventures 風(fēng)投家 Deedy Das 曾大膽猜測,其主要原理來自 DeepMind 一篇今年 8 月發(fā)表的論文。
論文提出,讓 LLM 進(jìn)行更多的「測試時(shí)計(jì)算」(test-time computation),對于構(gòu)建能在開放語境下操作、能實(shí)現(xiàn)自我提升的 agent,是關(guān)鍵的一步。
而這篇論文就重點(diǎn)研究了擴(kuò)展「推理期計(jì)算」(inference-time computation)這個(gè)問題。
研究團(tuán)隊(duì)分析了擴(kuò)展測試時(shí)計(jì)算的兩種主要機(jī)制:(1)針對密集的、基于過程的驗(yàn)證器獎(jiǎng)勵(lì)模型進(jìn)行搜索;(2)根據(jù)測試時(shí)得到的提示詞,自適應(yīng)更新模型對響應(yīng)的分布。
結(jié)果顯示,在這兩種情況下,對測試時(shí)計(jì)算的不同擴(kuò)展方法的有效性,很大程度上取決于提示詞的難度。
基于此,研究團(tuán)隊(duì)提出了一種「計(jì)算最優(yōu)」擴(kuò)展策略 —— 通過為每個(gè)提示詞自適應(yīng)地分配測試時(shí)計(jì)算,使測試時(shí)計(jì)算的擴(kuò)展的效率提高 4 倍以上。
另外,在 FLOPs 一致的評(píng)估中,對于那些較小的基礎(chǔ)模型已取得一定程度非平凡成功率的問題,測試時(shí)計(jì)算可以使其超越規(guī)模大 14 倍的模型。
此外,HuggingFace 技術(shù)主管 Philipp Schmid 也開列了一份論文清單,包含了 o1 模型可能的工作原理,主要關(guān)于通過訓(xùn)練 / RLHF 而非提示工程,提升 LLM 在復(fù)雜任務(wù)上的推理性能。
這 5 篇論文都發(fā)表于今年或去年,可以說是代表了細(xì)分方向的前沿進(jìn)展。
第一篇是斯坦福和 Notbad 在今年 3 月提出的 Quiet-STaR(Self-Taught Reasoner)。
論文的想法來源于這樣一個(gè)直覺:在寫作和說話時(shí),人們有時(shí)會(huì)停下來思考,但思考和推理的內(nèi)容不會(huì)顯式地表達(dá)出來,而是隱含在書面文本中。
因此,理想情況下,語言模型可以學(xué)習(xí)推斷文本中未闡明的基本原理。
Quiet-STaR 是對 2022 年發(fā)表的 STaR 的推廣,讓模型為每個(gè) token 生成基本原理來解釋未來的文本,從而提升預(yù)測能力。
第二篇同樣是斯坦福學(xué)者和 MultiOn 在今年 8 月合作發(fā)表的 AgentQ 框架。
他們將蒙特卡羅樹搜索(MCTS)與自我批評(píng)機(jī)制相結(jié)合,并使用直接偏好優(yōu)化(DPO)算法的 off-policy 變體對 agent 的交互進(jìn)行迭代微調(diào)。
這種方法允許 LLM agent 同時(shí)從成功和不成功的軌跡中進(jìn)行有效學(xué)習(xí),從而提高在復(fù)雜的多步驟推理任務(wù)中的泛化能力。
第三篇?jiǎng)t針對數(shù)學(xué)推理,以期提升模型的問題理解能力和「反思」能力。
具體來說,論文提出了一種新穎的「反思增強(qiáng)」方法,將問題的反思嵌入到每個(gè)訓(xùn)練實(shí)例,訓(xùn)練模型考慮其他可能的視角,并進(jìn)行抽象和類比,通過反思性推理促進(jìn)更全面的理解。
V-STaR 這篇文章同樣是對 STaR 框架的推廣,發(fā)表于今年 2 月。
論文提出,原有的 STaR 方法在迭代過程中丟棄了大量不正確的解決方案,可能忽略了其中有價(jià)值的信息。
V-STaR 正是要彌補(bǔ)這個(gè)缺陷,它同時(shí)利用了自我改進(jìn)過程中生成的正確和錯(cuò)誤的解決方案,用 DPO 訓(xùn)練出一個(gè)驗(yàn)證模型,以判斷生成的解決方案的正確性。該驗(yàn)證器在推理時(shí)使用,從候選解決方案中進(jìn)行選擇。
實(shí)驗(yàn)發(fā)現(xiàn),運(yùn)行 V-STaR 進(jìn)行多次迭代,可以逐漸訓(xùn)練出性能更好的推理模型和驗(yàn)證模型。
Let's Verify Step by Step 這篇論文,便是由 AI 大牛 Ilya 帶隊(duì)完成。
論文中,主要探討了大模型在復(fù)雜推理中,如何優(yōu)化訓(xùn)練策略的問題,尤其是,如何利用 CoT 進(jìn)行思考。
他們提出了過程監(jiān)督方法(process supervision),由此訓(xùn)練的一種全新模型,在解決數(shù)學(xué)問題上取得了突破。
這一策略的強(qiáng)大之處在于,比起結(jié)果監(jiān)督,在推理過程中逐步獎(jiǎng)勵(lì),進(jìn)而讓模型性能顯著提升。
除了推特帖中一開始涉及的 5 篇,Schimid 還在 HuggingFace 上單開了一個(gè)網(wǎng)頁,持續(xù)搜羅相關(guān)論文,目前已經(jīng)涵蓋了 7 篇。
o1 能否實(shí)現(xiàn)自我提升
Jim Fan 在一篇分析帖中指出,o1 模型給我們帶來的關(guān)鍵見解是這兩條曲線的齊頭并進(jìn) —— 訓(xùn)練時(shí)的 scaling law 和推理時(shí)的 scaling law,而后者才是真正戰(zhàn)勝收益遞減的關(guān)鍵因素。
此外,他還 cue 到了兩篇論文,能夠解決我們關(guān)于「o1 自我提升能力」的疑問。一篇是 Meta 和 NYU 在今年 1 月提出的「自我獎(jiǎng)勵(lì)的語言模型」。
這篇文章基于一個(gè)非常簡單的想法:對同一個(gè) LLM 進(jìn)行提示,引導(dǎo)它生成響應(yīng)并自我獎(jiǎng)勵(lì),進(jìn)行迭代自舉。
論文稱,獎(jiǎng)勵(lì)建模能力不再屬于一個(gè)固定、獨(dú)立的模型,而是可以跟隨主模型的步伐提升。但有趣的是,最多 3 次迭代之后,依舊會(huì)出現(xiàn)模型飽和。
對此,Jim Fan 的想法是,作為評(píng)論者(critic)的獎(jiǎng)勵(lì)模型,提升速度小于作為行動(dòng)者(actor)的生成模型,因此盡管二者都在提升,最多 3 輪迭代后,后者就會(huì)追上前者,達(dá)到飽和。
另一篇文章是 DeepMind 去年 8 月就發(fā)表的 ReST(Reinforced Self-Training),其實(shí)驗(yàn)結(jié)果也很類似:在達(dá)到收益遞減前,最多進(jìn)行 3 輪迭代。
這兩篇論文似乎證明了,評(píng)論家和行動(dòng)者之間不存在可持續(xù)的能力差距,除非引入外部驅(qū)動(dòng)信號(hào),比如符號(hào)定理驗(yàn)證、單元測試套件或編譯器反饋。
但這些都是特定領(lǐng)域的高度專業(yè)化的內(nèi)容,要想實(shí)現(xiàn)我們理想中的 LLM 的通用自我提升,還需要發(fā)掘和探索更多的研究想法。
參考資料:
https://www.reddit.com/r/singularity/comments/1fhi59o/chatgpt_o1_preview_mini_wrote_my_phd_code_in_1/
https://x.com/markchen90/status/1835143660746273185
https://mathstodon.xyz/@tao/113142753409304792
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。