首頁 > 科學探索>科技前沿

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

新智元 2024/9/16 15:38:48 責編：問舟

評論：

OpenAI 博士級別的智能，真的實現(xiàn)了！一位 UCI 物理學博士實測 o1，發(fā)現(xiàn)自己用時 1 年完成的博士論文代碼，竟被 AI 在 1 個小時之內(nèi)實現(xiàn)了。

o1 模型已經(jīng)強到，能夠直出博士論文代碼了！來自加州大學歐文分校（UCI）的物理學博士 Kyle Kabasares，實測 o1 preview+mini 后發(fā)現(xiàn)：

自己肝了大約 1 年的博士代碼，o1 竟在 1 小時內(nèi)完成了。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

他稱，在大約 6 次提示后，o1 便創(chuàng)建了一個運行版本的 Python 代碼，描述出研究論文「方法」部分的內(nèi)容。

雖然 AI 生成的代碼框架，模擬了 Kabasares 實際代碼功能，但它使用的是「合成數(shù)據(jù)」，并非真實的天文數(shù)據(jù)。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://iopscience.iop.org/ article / 10.3847/1538-4357 / ac7a38 / meta

不過，o1 能夠在這么短時間輸出復雜代碼，足以震撼。視頻右下角中，Kabasares 連連喊出「oh my god」，各種難以形容的動作表情，被震驚到懷疑人生。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

YouTube 視頻一出，便在全網(wǎng)掀起熱議，網(wǎng)友們紛紛表示太瘋狂了。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

好巧不巧的是，o1 在最新門薩智商測試中，IQ 水平竟超過了 120 分。35 個智商題，答對了 25 道，把其他模型甩出好幾條街。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

然而，這僅僅是 o1 模型的 preview 版本。OpenAI 研究人員 David Dohan 曾發(fā)文暗示，一個月后，o1 模型還將有全新的升級版本。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

屆時，還不知 o1 性能，將有多么逆天？！

物理學博士論文，AI 1 小時直出 200 行代碼

2022 年，物理學博士 Kabasares 以第一作者身份，在「天文物理期刊」發(fā)表了這篇關(guān)于，通過對天文數(shù)據(jù)建模來測量黑洞質(zhì)量的論文。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

當然，這篇研究不僅僅是寫代碼，但實現(xiàn)這段代碼，是 Kabasares 博士第一年的關(guān)鍵突破。

可以說，在他博士研究的階段的第一年（2018 年 7 月-2019 年 4 月），花費了大量時間，才讓這段代碼初版正確運行起來。

這也是，為什么 o1 能在 1 小時內(nèi)，給出一個可運行的 Python 代碼，讓 Kabasares 印象深刻。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

視頻中，看到 o1 輸出的代碼后，Kabasares 緩了好大一陣兒，才開始接下來的解釋。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

他向 ChatGPT o1 提供了論文中，「方法」部分的內(nèi)容（即第 4 節(jié)），并提示閱讀我的論文，根據(jù)所給信息，寫出一段 Python 運行代碼。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

他多次強調(diào)，自己沒有向 o1 展示自己代碼。在于 ChatGPT 對話頁面中，Kabasares 向大家展示，并細數(shù)了下 o1 是在 6 次提示下，完成 200 行代碼。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

不過，他也提出警告，實際上還需要我們自己去做一些額外的工作。就像論文中這個曲線圖，還得需要在另一個軟件，比如銀河圖像軟件中完成。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

當網(wǎng)友詢問到，有沒有可能 o1 就著你自己的代碼，完成的訓練？

Kabasares 認為，o1 輸出的 200 行代碼，與自己 1100 行代碼有著很大的不同，這是論文代碼「最簡版本」。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

深夜測試，o1 挑戰(zhàn)大學、博士物理題

為此，Kabasares 又發(fā)了第二彈視頻，向所有人解釋 o1 可能真的沒有接受過數(shù)據(jù)訓練。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

值得一提的是，他從辦公室拿到的私密文件，是由教授親自設(shè)計的天體物理學問題。這些題目，都是 Kabasares 在博士期間完成的，并沒有發(fā)布到互聯(lián)網(wǎng)上。

他專門為 o1 出了一個測試集，一共有 4 道題目。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

而在沒有訓練數(shù)據(jù)的情況下，o1 輸出的結(jié)果不用說。甚至，有的題它僅在 16 秒內(nèi)，完成了解答。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

還記得，OpenAI CTO Mira Murati 在接受采訪中表示，GPT-4 之后的新模型將達到博士級別的智能。

o1 現(xiàn)在的表現(xiàn)，已經(jīng)是關(guān)鍵的一瞥。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

代碼編程賽，大師級別

作為 OpenAI 的研究主管兼現(xiàn)任的 IOI 美國隊教練，Mark Chen 分享了 o1 模型在 Codeforces 比賽上的最新進展。

在 Codeforces 昨天的實時比賽中，一位名為 AryanDLuffy 的選手使用了 o1-mini 模型參加比賽，結(jié)果相當驚艷。

用 Mark Chen 的話來說，達到了「接近大師級別的表現(xiàn)」。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

AryanDLuffy 發(fā)帖表示，自己沒有進行任何提示工程，僅僅是給出問題陳述，并告訴模型用 C++ 解題。

7 道題目中，o1-mini 僅在 B2、D 和 E2 遇到了困難，其中 D 和 E2 是不少排名前 50 的選手也沒能得分的，也是提交人數(shù)最少的兩道題目。

最終，o1-mini 幫助 AryanDLuffy 獲得了 3922 分的總成績，在超過 16 萬參賽者中排名 277，也就是排名在前 0.17%。

這遠遠超過了 OpenAI 自己做的基準測試結(jié)果。o1 模型在他們的模擬 Codeforces 比賽中還只是超過了 89% 的人類選手。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

277 的排名相比 AryanDLuffy 本人之前的紀錄提高了 158 位，達到了 4 年來最大的進步幅度。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

對此，Mark Chen 和很多網(wǎng)友的想法是，IMO 和 Codeforces 的競賽題也許可以作為新型的 LLM 基準測試。然而，Codeforces 的主辦方擔心的是另一件事。

競賽創(chuàng)始人 Mike Mirzayanov 為此特地制定了一條新規(guī)：禁止使用 GPT、Gemini、Gemma、Llama 和 Claude 等各種模型來解決 Codeforces 競賽中的編程問題。

但是這條新規(guī)并不是要求參賽者完全摒棄 AI，他們依舊可以讓模型輔助翻譯問題陳述，或者向 Copilot 尋求語法幫助和次要的編碼建議。

簡而言之，競賽問題的核心邏輯、算法，以及 bug 的診斷調(diào)試，都必須由人類選手獨立完成，CF 也會進行作弊檢測。在非競爭性問題中，AI 工具的使用則完全不受限制。

但也有用戶指出，作弊檢測實質(zhì)上很難執(zhí)行，參賽者簡單修改一下 AI 生成的代碼就可以「逃過法眼」。競爭性編程競賽的未來，很大程度上決定于選手們自己能否守信。

CF 也表示，會持續(xù)關(guān)注 AI 技術(shù)的進展，并根據(jù)需要及時調(diào)整規(guī)則。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

在博文中，Mirzayanov 將神經(jīng)網(wǎng)絡(luò)的進展稱為「技術(shù)奇跡」，因為不久前這些模型還很難完成競賽中最簡單的任務(wù)，但現(xiàn)在卻達到了不容忽視的高度。

他表示，「我們有理由相信，這種進步會持續(xù)下去，AI 可能會在編程競賽領(lǐng)域繼續(xù)取得新的突破。」

陶哲軒實測后續(xù)

除了 Codeforces，陶哲軒大神也表示，由于大家對他之前測試的興趣，因此繼續(xù)放出了一些其他的 o1 preview 實驗結(jié)果。

第一個實驗，是找術(shù)語。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

2010 年，我正在尋找「乘法積分」的正確術(shù)語，但當時沒有用搜索引擎找到。于是我轉(zhuǎn)而在 MathOverflow 上提出了問題，并從人類專家那里得到了滿意的答案：

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

14 年后的今天，陶哲軒再次向 o1 模型提出了相同的問題，問題表述都和 MathOverflow 上的帖子幾乎一模一樣。

相比人類專家，o1 給出的答案更加全面而且完美。不僅包含了 5 個可能的術(shù)語，還附上了相應(yīng)的數(shù)學表示、應(yīng)用領(lǐng)域和參考文獻。

陶哲軒表示，雖然這篇 MathOverflow 上的帖子可能已經(jīng)包含在 o1 的訓練數(shù)據(jù)中了，但依舊能展現(xiàn)模型在語義搜索方面的強大功能，而且搜集、總結(jié)出的答案的質(zhì)量可以與 MathOverflow 這類專業(yè)的問答網(wǎng)站相當。

另一個實驗則更具創(chuàng)造性，與陶哲軒本人的研究直接相關(guān)。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

作為另一個小實驗，我給了 o1 我最近的博客文章的前半部分，其中總結(jié)了之前我自己能夠解決的鄂爾多斯問題的進展。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

要將之前的部分進展轉(zhuǎn)換為全面的解決方案，仍缺失一些要素，我要求 o1 模型找到這些轉(zhuǎn)換要素，但結(jié)果有點令人失望。
本質(zhì)上，模型提出的策略與博客中重述的最新研究是相同的，并針對該策略沒有提供任何創(chuàng)造性的改變。
總的來說，我覺得雖然 LLM 工具有一定的能力，可以隨機生成創(chuàng)造性策略，但這方面的 LLM 工具仍然相當薄弱。

多篇論文闡述 o1 運作機制，DeepMind 上大分

o1 模型發(fā)布不到一周，我們就已經(jīng)見證了這么多驚人的用例，AI 技術(shù)界對 o1 背后的機制和原理也是眾說紛紜。

前谷歌搜索工程師、Menlo Ventures 風投家 Deedy Das 曾大膽猜測，其主要原理來自 DeepMind 一篇今年 8 月發(fā)表的論文。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2408.03314

論文提出，讓 LLM 進行更多的「測試時計算」（test-time computation），對于構(gòu)建能在開放語境下操作、能實現(xiàn)自我提升的 agent，是關(guān)鍵的一步。

而這篇論文就重點研究了擴展「推理期計算」（inference-time computation）這個問題。

研究團隊分析了擴展測試時計算的兩種主要機制：（1）針對密集的、基于過程的驗證器獎勵模型進行搜索；（2）根據(jù)測試時得到的提示詞，自適應(yīng)更新模型對響應(yīng)的分布。

結(jié)果顯示，在這兩種情況下，對測試時計算的不同擴展方法的有效性，很大程度上取決于提示詞的難度。

基于此，研究團隊提出了一種「計算最優(yōu)」擴展策略 —— 通過為每個提示詞自適應(yīng)地分配測試時計算，使測試時計算的擴展的效率提高 4 倍以上。

另外，在 FLOPs 一致的評估中，對于那些較小的基礎(chǔ)模型已取得一定程度非平凡成功率的問題，測試時計算可以使其超越規(guī)模大 14 倍的模型。

此外，HuggingFace 技術(shù)主管 Philipp Schmid 也開列了一份論文清單，包含了 o1 模型可能的工作原理，主要關(guān)于通過訓練 / RLHF 而非提示工程，提升 LLM 在復雜任務(wù)上的推理性能。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

這 5 篇論文都發(fā)表于今年或去年，可以說是代表了細分方向的前沿進展。

第一篇是斯坦福和 Notbad 在今年 3 月提出的 Quiet-STaR（Self-Taught Reasoner）。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2403.09629

論文的想法來源于這樣一個直覺：在寫作和說話時，人們有時會停下來思考，但思考和推理的內(nèi)容不會顯式地表達出來，而是隱含在書面文本中。

因此，理想情況下，語言模型可以學習推斷文本中未闡明的基本原理。

Quiet-STaR 是對 2022 年發(fā)表的 STaR 的推廣，讓模型為每個 token 生成基本原理來解釋未來的文本，從而提升預測能力。

第二篇同樣是斯坦福學者和 MultiOn 在今年 8 月合作發(fā)表的 AgentQ 框架。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2408.07199

他們將蒙特卡羅樹搜索（MCTS）與自我批評機制相結(jié)合，并使用直接偏好優(yōu)化（DPO）算法的 off-policy 變體對 agent 的交互進行迭代微調(diào)。

這種方法允許 LLM agent 同時從成功和不成功的軌跡中進行有效學習，從而提高在復雜的多步驟推理任務(wù)中的泛化能力。

第三篇則針對數(shù)學推理，以期提升模型的問題理解能力和「反思」能力。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2406.12050

具體來說，論文提出了一種新穎的「反思增強」方法，將問題的反思嵌入到每個訓練實例，訓練模型考慮其他可能的視角，并進行抽象和類比，通過反思性推理促進更全面的理解。

V-STaR 這篇文章同樣是對 STaR 框架的推廣，發(fā)表于今年 2 月。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2402.06457

論文提出，原有的 STaR 方法在迭代過程中丟棄了大量不正確的解決方案，可能忽略了其中有價值的信息。

V-STaR 正是要彌補這個缺陷，它同時利用了自我改進過程中生成的正確和錯誤的解決方案，用 DPO 訓練出一個驗證模型，以判斷生成的解決方案的正確性。該驗證器在推理時使用，從候選解決方案中進行選擇。

實驗發(fā)現(xiàn)，運行 V-STaR 進行多次迭代，可以逐漸訓練出性能更好的推理模型和驗證模型。

Let's Verify Step by Step 這篇論文，便是由 AI 大牛 Ilya 帶隊完成。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2305.20050

論文中，主要探討了大模型在復雜推理中，如何優(yōu)化訓練策略的問題，尤其是，如何利用 CoT 進行思考。

他們提出了過程監(jiān)督方法（process supervision），由此訓練的一種全新模型，在解決數(shù)學問題上取得了突破。

這一策略的強大之處在于，比起結(jié)果監(jiān)督，在推理過程中逐步獎勵，進而讓模型性能顯著提升。

除了推特帖中一開始涉及的 5 篇，Schimid 還在 HuggingFace 上單開了一個網(wǎng)頁，持續(xù)搜羅相關(guān)論文，目前已經(jīng)涵蓋了 7 篇。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8

o1 能否實現(xiàn)自我提升

Jim Fan 在一篇分析帖中指出，o1 模型給我們帶來的關(guān)鍵見解是這兩條曲線的齊頭并進 —— 訓練時的 scaling law 和推理時的 scaling law，而后者才是真正戰(zhàn)勝收益遞減的關(guān)鍵因素。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

此外，他還 cue 到了兩篇論文，能夠解決我們關(guān)于「o1 自我提升能力」的疑問。一篇是 Meta 和 NYU 在今年 1 月提出的「自我獎勵的語言模型」。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2401.10020

這篇文章基于一個非常簡單的想法：對同一個 LLM 進行提示，引導它生成響應(yīng)并自我獎勵，進行迭代自舉。

論文稱，獎勵建模能力不再屬于一個固定、獨立的模型，而是可以跟隨主模型的步伐提升。但有趣的是，最多 3 次迭代之后，依舊會出現(xiàn)模型飽和。

對此，Jim Fan 的想法是，作為評論者（critic）的獎勵模型，提升速度小于作為行動者（actor）的生成模型，因此盡管二者都在提升，最多 3 輪迭代后，后者就會追上前者，達到飽和。

另一篇文章是 DeepMind 去年 8 月就發(fā)表的 ReST（Reinforced Self-Training），其實驗結(jié)果也很類似：在達到收益遞減前，最多進行 3 輪迭代。

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

論文地址：https://arxiv.org/ abs / 2308.08998

這兩篇論文似乎證明了，評論家和行動者之間不存在可持續(xù)的能力差距，除非引入外部驅(qū)動信號，比如符號定理驗證、單元測試套件或編譯器反饋。

但這些都是特定領(lǐng)域的高度專業(yè)化的內(nèi)容，要想實現(xiàn)我們理想中的 LLM 的通用自我提升，還需要發(fā)掘和探索更多的研究想法。

參考資料：

https://www.reddit.com/r/singularity/comments/1fhi59o/chatgpt_o1_preview_mini_wrote_my_phd_code_in_1/
https://x.com/markchen90/status/1835143660746273185
https://mathstodon.xyz/@tao/113142753409304792

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI 超強 o1 智商超 120 遙遙領(lǐng)先于其他模型：1 小時寫出 NASA 博士 1 年代碼，最新編程賽超越 99.8% 選手

物理學博士論文，AI 1 小時直出 200 行代碼

深夜測試，o1 挑戰(zhàn)大學、博士物理題

代碼編程賽，大師級別

陶哲軒實測后續(xù)

多篇論文闡述 o1 運作機制，DeepMind 上大分

o1 能否實現(xiàn)自我提升

相關(guān)文章

深夜測試，o1 挑戰(zhàn)大學、博士物理題

代碼編程賽，大師級別

多篇論文闡述 o1 運作機制，DeepMind 上大分