OpenAI 博士級別的智能,真的實現了!一位 UCI 物理學博士實測 o1,發(fā)現自己用時 1 年完成的博士論文代碼,竟被 AI 在 1 個小時之內實現了。
o1 模型已經強到,能夠直出博士論文代碼了!來自加州大學歐文分校(UCI)的物理學博士 Kyle Kabasares,實測 o1 preview+mini 后發(fā)現:
自己肝了大約 1 年的博士代碼,o1 竟在 1 小時內完成了。
他稱,在大約 6 次提示后,o1 便創(chuàng)建了一個運行版本的 Python 代碼,描述出研究論文「方法」部分的內容。
雖然 AI 生成的代碼框架,模擬了 Kabasares 實際代碼功能,但它使用的是「合成數據」,并非真實的天文數據。
不過,o1 能夠在這么短時間輸出復雜代碼,足以震撼。視頻右下角中,Kabasares 連連喊出「oh my god」,各種難以形容的動作表情,被震驚到懷疑人生。
YouTube 視頻一出,便在全網掀起熱議,網友們紛紛表示太瘋狂了。
好巧不巧的是,o1 在最新門薩智商測試中,IQ 水平竟超過了 120 分。35 個智商題,答對了 25 道,把其他模型甩出好幾條街。
然而,這僅僅是 o1 模型的 preview 版本。OpenAI 研究人員 David Dohan 曾發(fā)文暗示,一個月后,o1 模型還將有全新的升級版本。
屆時,還不知 o1 性能,將有多么逆天?!
物理學博士論文,AI 1 小時直出 200 行代碼
2022 年,物理學博士 Kabasares 以第一作者身份,在「天文物理期刊」發(fā)表了這篇關于,通過對天文數據建模來測量黑洞質量的論文。
當然,這篇研究不僅僅是寫代碼,但實現這段代碼,是 Kabasares 博士第一年的關鍵突破。
可以說,在他博士研究的階段的第一年(2018 年 7 月-2019 年 4 月),花費了大量時間,才讓這段代碼初版正確運行起來。
這也是,為什么 o1 能在 1 小時內,給出一個可運行的 Python 代碼,讓 Kabasares 印象深刻。
視頻中,看到 o1 輸出的代碼后,Kabasares 緩了好大一陣兒,才開始接下來的解釋。
他向 ChatGPT o1 提供了論文中,「方法」部分的內容(即第 4 節(jié)),并提示閱讀我的論文,根據所給信息,寫出一段 Python 運行代碼。
他多次強調,自己沒有向 o1 展示自己代碼。在于 ChatGPT 對話頁面中,Kabasares 向大家展示,并細數了下 o1 是在 6 次提示下,完成 200 行代碼。
不過,他也提出警告,實際上還需要我們自己去做一些額外的工作。就像論文中這個曲線圖,還得需要在另一個軟件,比如銀河圖像軟件中完成。
當網友詢問到,有沒有可能 o1 就著你自己的代碼,完成的訓練?
Kabasares 認為,o1 輸出的 200 行代碼,與自己 1100 行代碼有著很大的不同,這是論文代碼「最簡版本」。
深夜測試,o1 挑戰(zhàn)大學、博士物理題
為此,Kabasares 又發(fā)了第二彈視頻,向所有人解釋 o1 可能真的沒有接受過數據訓練。
值得一提的是,他從辦公室拿到的私密文件,是由教授親自設計的天體物理學問題。這些題目,都是 Kabasares 在博士期間完成的,并沒有發(fā)布到互聯(lián)網上。
他專門為 o1 出了一個測試集,一共有 4 道題目。
而在沒有訓練數據的情況下,o1 輸出的結果不用說。甚至,有的題它僅在 16 秒內,完成了解答。
還記得,OpenAI CTO Mira Murati 在接受采訪中表示,GPT-4 之后的新模型將達到博士級別的智能。
o1 現在的表現,已經是關鍵的一瞥。
代碼編程賽,大師級別
作為 OpenAI 的研究主管兼現任的 IOI 美國隊教練,Mark Chen 分享了 o1 模型在 Codeforces 比賽上的最新進展。
在 Codeforces 昨天的實時比賽中,一位名為 AryanDLuffy 的選手使用了 o1-mini 模型參加比賽,結果相當驚艷。
用 Mark Chen 的話來說,達到了「接近大師級別的表現」。
AryanDLuffy 發(fā)帖表示,自己沒有進行任何提示工程,僅僅是給出問題陳述,并告訴模型用 C++ 解題。
7 道題目中,o1-mini 僅在 B2、D 和 E2 遇到了困難,其中 D 和 E2 是不少排名前 50 的選手也沒能得分的,也是提交人數最少的兩道題目。
最終,o1-mini 幫助 AryanDLuffy 獲得了 3922 分的總成績,在超過 16 萬參賽者中排名 277,也就是排名在前 0.17%。
這遠遠超過了 OpenAI 自己做的基準測試結果。o1 模型在他們的模擬 Codeforces 比賽中還只是超過了 89% 的人類選手。
277 的排名相比 AryanDLuffy 本人之前的紀錄提高了 158 位,達到了 4 年來最大的進步幅度。
對此,Mark Chen 和很多網友的想法是,IMO 和 Codeforces 的競賽題也許可以作為新型的 LLM 基準測試。然而,Codeforces 的主辦方擔心的是另一件事。
競賽創(chuàng)始人 Mike Mirzayanov 為此特地制定了一條新規(guī):禁止使用 GPT、Gemini、Gemma、Llama 和 Claude 等各種模型來解決 Codeforces 競賽中的編程問題。
但是這條新規(guī)并不是要求參賽者完全摒棄 AI,他們依舊可以讓模型輔助翻譯問題陳述,或者向 Copilot 尋求語法幫助和次要的編碼建議。
簡而言之,競賽問題的核心邏輯、算法,以及 bug 的診斷調試,都必須由人類選手獨立完成,CF 也會進行作弊檢測。在非競爭性問題中,AI 工具的使用則完全不受限制。
但也有用戶指出,作弊檢測實質上很難執(zhí)行,參賽者簡單修改一下 AI 生成的代碼就可以「逃過法眼」。競爭性編程競賽的未來,很大程度上決定于選手們自己能否守信。
CF 也表示,會持續(xù)關注 AI 技術的進展,并根據需要及時調整規(guī)則。
在博文中,Mirzayanov 將神經網絡的進展稱為「技術奇跡」,因為不久前這些模型還很難完成競賽中最簡單的任務,但現在卻達到了不容忽視的高度。
他表示,「我們有理由相信,這種進步會持續(xù)下去,AI 可能會在編程競賽領域繼續(xù)取得新的突破?!?/p>
陶哲軒實測后續(xù)
除了 Codeforces,陶哲軒大神也表示,由于大家對他之前測試的興趣,因此繼續(xù)放出了一些其他的 o1 preview 實驗結果。
第一個實驗,是找術語。
2010 年,我正在尋找「乘法積分」的正確術語,但當時沒有用搜索引擎找到。于是我轉而在 MathOverflow 上提出了問題,并從人類專家那里得到了滿意的答案:
14 年后的今天,陶哲軒再次向 o1 模型提出了相同的問題,問題表述都和 MathOverflow 上的帖子幾乎一模一樣。
相比人類專家,o1 給出的答案更加全面而且完美。不僅包含了 5 個可能的術語,還附上了相應的數學表示、應用領域和參考文獻。
陶哲軒表示,雖然這篇 MathOverflow 上的帖子可能已經包含在 o1 的訓練數據中了,但依舊能展現模型在語義搜索方面的強大功能,而且搜集、總結出的答案的質量可以與 MathOverflow 這類專業(yè)的問答網站相當。
另一個實驗則更具創(chuàng)造性,與陶哲軒本人的研究直接相關。
作為另一個小實驗,我給了 o1 我最近的博客文章的前半部分,其中總結了之前我自己能夠解決的鄂爾多斯問題的進展。
要將之前的部分進展轉換為全面的解決方案,仍缺失一些要素,我要求 o1 模型找到這些轉換要素,但結果有點令人失望。
本質上,模型提出的策略與博客中重述的最新研究是相同的,并針對該策略沒有提供任何創(chuàng)造性的改變。
總的來說,我覺得雖然 LLM 工具有一定的能力,可以隨機生成創(chuàng)造性策略,但這方面的 LLM 工具仍然相當薄弱。
多篇論文闡述 o1 運作機制,DeepMind 上大分
o1 模型發(fā)布不到一周,我們就已經見證了這么多驚人的用例,AI 技術界對 o1 背后的機制和原理也是眾說紛紜。
前谷歌搜索工程師、Menlo Ventures 風投家 Deedy Das 曾大膽猜測,其主要原理來自 DeepMind 一篇今年 8 月發(fā)表的論文。
論文提出,讓 LLM 進行更多的「測試時計算」(test-time computation),對于構建能在開放語境下操作、能實現自我提升的 agent,是關鍵的一步。
而這篇論文就重點研究了擴展「推理期計算」(inference-time computation)這個問題。
研究團隊分析了擴展測試時計算的兩種主要機制:(1)針對密集的、基于過程的驗證器獎勵模型進行搜索;(2)根據測試時得到的提示詞,自適應更新模型對響應的分布。
結果顯示,在這兩種情況下,對測試時計算的不同擴展方法的有效性,很大程度上取決于提示詞的難度。
基于此,研究團隊提出了一種「計算最優(yōu)」擴展策略 —— 通過為每個提示詞自適應地分配測試時計算,使測試時計算的擴展的效率提高 4 倍以上。
另外,在 FLOPs 一致的評估中,對于那些較小的基礎模型已取得一定程度非平凡成功率的問題,測試時計算可以使其超越規(guī)模大 14 倍的模型。
此外,HuggingFace 技術主管 Philipp Schmid 也開列了一份論文清單,包含了 o1 模型可能的工作原理,主要關于通過訓練 / RLHF 而非提示工程,提升 LLM 在復雜任務上的推理性能。
這 5 篇論文都發(fā)表于今年或去年,可以說是代表了細分方向的前沿進展。
第一篇是斯坦福和 Notbad 在今年 3 月提出的 Quiet-STaR(Self-Taught Reasoner)。
論文的想法來源于這樣一個直覺:在寫作和說話時,人們有時會停下來思考,但思考和推理的內容不會顯式地表達出來,而是隱含在書面文本中。
因此,理想情況下,語言模型可以學習推斷文本中未闡明的基本原理。
Quiet-STaR 是對 2022 年發(fā)表的 STaR 的推廣,讓模型為每個 token 生成基本原理來解釋未來的文本,從而提升預測能力。
第二篇同樣是斯坦福學者和 MultiOn 在今年 8 月合作發(fā)表的 AgentQ 框架。
他們將蒙特卡羅樹搜索(MCTS)與自我批評機制相結合,并使用直接偏好優(yōu)化(DPO)算法的 off-policy 變體對 agent 的交互進行迭代微調。
這種方法允許 LLM agent 同時從成功和不成功的軌跡中進行有效學習,從而提高在復雜的多步驟推理任務中的泛化能力。
第三篇則針對數學推理,以期提升模型的問題理解能力和「反思」能力。
具體來說,論文提出了一種新穎的「反思增強」方法,將問題的反思嵌入到每個訓練實例,訓練模型考慮其他可能的視角,并進行抽象和類比,通過反思性推理促進更全面的理解。
V-STaR 這篇文章同樣是對 STaR 框架的推廣,發(fā)表于今年 2 月。
論文提出,原有的 STaR 方法在迭代過程中丟棄了大量不正確的解決方案,可能忽略了其中有價值的信息。
V-STaR 正是要彌補這個缺陷,它同時利用了自我改進過程中生成的正確和錯誤的解決方案,用 DPO 訓練出一個驗證模型,以判斷生成的解決方案的正確性。該驗證器在推理時使用,從候選解決方案中進行選擇。
實驗發(fā)現,運行 V-STaR 進行多次迭代,可以逐漸訓練出性能更好的推理模型和驗證模型。
Let's Verify Step by Step 這篇論文,便是由 AI 大牛 Ilya 帶隊完成。
論文中,主要探討了大模型在復雜推理中,如何優(yōu)化訓練策略的問題,尤其是,如何利用 CoT 進行思考。
他們提出了過程監(jiān)督方法(process supervision),由此訓練的一種全新模型,在解決數學問題上取得了突破。
這一策略的強大之處在于,比起結果監(jiān)督,在推理過程中逐步獎勵,進而讓模型性能顯著提升。
除了推特帖中一開始涉及的 5 篇,Schimid 還在 HuggingFace 上單開了一個網頁,持續(xù)搜羅相關論文,目前已經涵蓋了 7 篇。
o1 能否實現自我提升
Jim Fan 在一篇分析帖中指出,o1 模型給我們帶來的關鍵見解是這兩條曲線的齊頭并進 —— 訓練時的 scaling law 和推理時的 scaling law,而后者才是真正戰(zhàn)勝收益遞減的關鍵因素。
此外,他還 cue 到了兩篇論文,能夠解決我們關于「o1 自我提升能力」的疑問。一篇是 Meta 和 NYU 在今年 1 月提出的「自我獎勵的語言模型」。
這篇文章基于一個非常簡單的想法:對同一個 LLM 進行提示,引導它生成響應并自我獎勵,進行迭代自舉。
論文稱,獎勵建模能力不再屬于一個固定、獨立的模型,而是可以跟隨主模型的步伐提升。但有趣的是,最多 3 次迭代之后,依舊會出現模型飽和。
對此,Jim Fan 的想法是,作為評論者(critic)的獎勵模型,提升速度小于作為行動者(actor)的生成模型,因此盡管二者都在提升,最多 3 輪迭代后,后者就會追上前者,達到飽和。
另一篇文章是 DeepMind 去年 8 月就發(fā)表的 ReST(Reinforced Self-Training),其實驗結果也很類似:在達到收益遞減前,最多進行 3 輪迭代。
這兩篇論文似乎證明了,評論家和行動者之間不存在可持續(xù)的能力差距,除非引入外部驅動信號,比如符號定理驗證、單元測試套件或編譯器反饋。
但這些都是特定領域的高度專業(yè)化的內容,要想實現我們理想中的 LLM 的通用自我提升,還需要發(fā)掘和探索更多的研究想法。
參考資料:
https://www.reddit.com/r/singularity/comments/1fhi59o/chatgpt_o1_preview_mini_wrote_my_phd_code_in_1/
https://x.com/markchen90/status/1835143660746273185
https://mathstodon.xyz/@tao/113142753409304792
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。