警告!不要在 ChatGPT 里問最新 o1 模型是怎么思考的 ——
只要嘗試幾次,OpenAI 就會發(fā)郵件威脅撤銷你的使用資格。
請停止此活動,確保您使用 ChatGPT 時符合我們的使用條款。違反此條款的行為可能導致失去 OpenAI o1 訪問權限。
大模型新范式 o1 橫空出世不到 24 小時,就已經(jīng)有不少用戶反饋收到這封警告郵件,引起眾人不滿。
有人反饋只要提示詞里帶“reasoning trace”、“show your chain of thought”等關鍵詞就會收到警告。
甚至完全避免出現(xiàn)關鍵詞,使用其他手段誘導模型繞過限制都會被檢測到。
也有人聲稱自己真的被封號了,為期一周。
這些用戶都在試圖套話 o1,讓他復述出完整的內部思維過程,也就是全部原始 reasoning tokens。
目前,大家在 ChatGPT 界面通過展開按鈕能看到的,只是一份對原始思維過程的摘要。
實際上,在 o1 發(fā)布時 OpenAI 就給出了隱藏模型完整思維過程的理由。
總結一下:OpenAI 內部需要監(jiān)測模型的思維過程,因此不能在這些原始 tokens 中加入安全限制,也就不方便讓用戶看到。
不過這個理由并不是所有人都認可。
有人指出,o1 思維過程就是其他模型最好的訓練數(shù)據(jù),所以 OpenAI 不想這些寶貴數(shù)據(jù)被別的公司扒走。
也有人認為這說明 o1 真的沒有什么護城河,一旦思維過程暴露就很容易被別人復制。
以及“這是讓我們只需盲目相信 AI 的答案,不用做出任何解釋嗎?”
對于 o1 模型背后的技術原理,這次透露的相當少,有效信息幾乎只有“用了強化學習”。
總之,OpenAI 是越來越不 Open 了。
o1 就是草莓,但并非 GPT-5
目前可以確定 o1 就是 OpenAI 炒作很久了的“草莓”,或者說是用了“草莓”所代表的方法。
但他可以算作下一代模型 GPT-5 么,還是只是 GPT-4.X?
越來越多的人開始懷疑,它只是基于 GPT-4o 做的工程調整。
知名爆料賬號 Flowers(原 Flowers from the future)稱,OpenAI 員工內部把 o1 稱作“帶推理的 4o”。
并且他聲稱很多 OpenAI 員工默默點贊了這條爆料,上面的截圖也正是來自 OpenAI 員工。
但馬斯克前一陣把推特改版成除了樓主以外其他人無法看到誰點贊了什么,所以目前還無法證實這條消息。
在 OpenAI 開發(fā)者賬號剛剛舉辦的“有問必答”(Ask Me Anything)活動中,F(xiàn)lowers 也做了追問。
OpenAI 員工在這里回答了很多問題,但回避了這個點贊很多排在前面的問題。
甚至阿爾特曼本曼剛剛又出來當謎語人,暗示“草莓”已經(jīng)告一段落,下一款代號“獵戶座”O(jiān)rion 的新模型還在路上。
此前有消息稱“獵戶座”是 OpenAI 的下一代新旗艦模型,由“草莓”也就是 o1 生成的合成數(shù)據(jù)訓練。
而獵戶座正是阿爾特曼口中“冬季星座”的代表之一。
說回到已發(fā)布的 o1,圍繞它的另一種批評聲音是“不符合科研規(guī)范”。
例如沒有引用之前推理時間計算的相關工作,同時也缺乏與其他公司最先進模型的比較。
針對前一點,有人指出 OpenAI 已經(jīng)不再是一個研究實驗室,應該被視為一家商業(yè)公司了。
有時他們仍會假裝自己是個研究實驗室,目的是招募想要做研究工作的人才。
不過針對后一點,既然 API 發(fā)布了,要不要與其他前沿模型比較就由不得你了,很多第三方 Benchmark 已陸續(xù)跑出結果。
在 Keras 之父舉辦的 100 萬美金 AGI Prize 比賽中,o1-preview 和 o1-mini 兩個版本在公開測試集上都超過了自家 GPT-4o。
但 o1-preview 與隔壁 Claude 3.5-Sonnet 只是打了個平手。
在 o1 著重宣傳的代碼能力上,開源結對編程工具 aider 團隊運行了測試,o1 系列也沒有取得明顯優(yōu)勢。
對于整個代碼重寫任務,o1-preiview 取得 79.7 分,Claude-3.5-Sonnet 取得 75.2 分,o1 領先 4.5 分。
但對于更實用的代碼編輯任務,o1-preview 反而落后于 Claude-3.5-Sonnet,有 2.2 分的差距。
另外 aider 團隊提示,如果目前想用 o1 系列替代 Claude 編程,成本上要高很多。
與 OpenAI 有合作關系的“AI 程序員”Devin 團隊,已經(jīng)提前拿到了 o1 訪問資格。
在他們的測試中,由 o1 系列驅動 Devin 基礎版本,與 GPT-4o 相比獲得非常大的提升。
不過相比已發(fā)布的 Devin 生產(chǎn)版本還是有較大差距,主要是由于 Devin 生產(chǎn)版本在專有數(shù)據(jù)上進行了訓練。
另外根據(jù) Devin 團隊分享,o1 在得出正確的解決方案之前通常會回溯并考慮不同的選項,并且不太可能出現(xiàn)幻覺或自信地錯誤。
使用 o1-preview 時,Devin 更有可能正確診斷 bug 的根本原因,而不是解決問題的癥狀。
在更重視數(shù)學和邏輯推理的 Livebench 榜單中,o1-preview 在代碼單項落后的情況下,總分上超過 Claude-3.5-Sonnet 并拉開明顯差距。
Livebench 團隊分享這還只是初步結果,因為很多測試中還內置了“請一步一步地思考”等提示詞技巧,這并不是使用 o1 的最佳方法。
在中文大模型綜合測評基準 SuperCLUE 的中文復雜任務高階推理測試中,o1-preview 的推理能力也大幅領先。
最后總結一下,使用 o1 模型還需要注意的一些地方:
成本非常高,1 百萬輸出 tokens 就要 60 美元,價格一夜回到 GPT-3 時代
隱藏的 resoning tokens 也是算在輸出 tokens 中,看不到,但是要付費
大多數(shù)任務最好先使用 GPT-4o,發(fā)現(xiàn)不夠用了再切換 o1,以節(jié)省成本
代碼任務仍然優(yōu)先使用 Claude-3.5-Sonnet
總之圍繞 OpenAI 新模型 o1,開發(fā)者社區(qū)還有很多疑問。
o1 開啟了 AI 高階推理的新范式,但它本身還不算完善,如何發(fā)揮他的最大價值還有待探索。
在此背景下,OpenAI 舉辦的“有問必答”活動,在 4 個小時內就收到上百條提問。
下面附上對整場活動內容的精選和總結。
OpenAI 員工“有問必答”
首先對于這個突然發(fā)布的新模型,很多人好奇為什么 OpenAI 給它取了 o1 這樣一個名字?
這是因為在 OpenAI 看了,o1 代表了 AI 能力的一個新的層級,因此對“計數(shù)器”進行了重置,而 o 則代表 OpenAI。
就像 o1 發(fā)布時阿爾特曼說的,可以進行復雜推理的 o1,是一個新范式的開始。
對于其中 preview 和 mini 兩個版本號,OpenAI 科學家也確認了網(wǎng)友的一些猜測 ——
preview 是一個臨時版本,正式版將在未來上線(實際上 preview 版本是 o1 的一個早期 checkpoint);而 mini 版不保證近期之內會有更新。
配合 OpenAI 成員 Kevin Lu 之前發(fā)布的這張圖來看,就更加清晰明了了。
與 preview 相比,mini 在某些任務上表現(xiàn)出色,尤其是與代碼相關的任務,還可以探索更多的思維鏈,但世界知識相對少些。
對此,OpenAI 科學家趙盛佳的解釋是,mini 是一個高度專門化的模型,只關注少部分的能力,所以可以更深入。
也算是揭曉了之前阿爾特曼在這個問題上打的一個啞謎。
關于 o1 的運作方式,OpenAI 科學家 Noam Brown 也明確表示,并非是像部分網(wǎng)友認為的模型 + CoT 組成的“系統(tǒng)”,而是一個已經(jīng)被訓練得原生具備生成思維鏈能力的模型。
不過推理過程中的思維鏈會被隱藏,并且官方已經(jīng)明確了沒有向用戶展示有關 token 的計劃。對此 OpenAI 透露的為數(shù)不多的消息是,CoT 的相關 token 是總結性的,且不保證完全和推理過程匹配。
除了推理模式,在這次問答活動中還能夠得知,o1 與 GPT-4o 相比可以處理更長的文本,而且未來還會繼續(xù)增加。
表現(xiàn)上,在 OpenAI 內部的測試中,o1 顯現(xiàn)出了哲學推理能力,可以思考諸如“生命是什么?”之類的哲學問題。
研究人員還使用 o1 創(chuàng)建了一個 GitHub 機器人,能夠將代碼 ping 給所有者以供審核。
當然對于一些非推理性質的任務,比如創(chuàng)意寫作,o1 的表現(xiàn)相比 GPT-4o 提升并不明顯,甚至有時還要略遜一籌。
另外綜合一些提問來看,對于網(wǎng)友們關心的一些未上線功能,OpenAI 表示正在或有計劃研究,但沒有明確的上線時間:
暫不支持工具調用,但函數(shù)調用、代碼解釋器都在未來計劃之中
未來 API 更新將加入結構化輸出、系統(tǒng)提示詞、提示詞緩存功能
微調也已在計劃中
API 用戶將可以自行設定對推理時間和 token 消耗的限制
o1 具有多模態(tài)能力,瞄準的是 MMMU 等數(shù)據(jù)集上的 SOTA,之后將實裝
性能上,OpenAI 也正在著手降低延遲和推理所需時間。
最后是人們,尤其是 API 用戶關心的價格問題,畢竟考慮到將推理過程計入輸出 token,o1 的定價還是比較高的。
OpenAI 表示“將遵循每 1-2 年降價的趨勢”,并且在使用量限制變得更寬松時,批量 API 定價也會上線。
網(wǎng)頁 / App 端的 Plus 用戶,目前則是要受到每周 preview30 條 + mini50 條消息的限制。
不過好消息是,就在今天凌晨,由于人們對 o1 實在太熱情,導致很多人很快就把額度用完,所以 OpenAI 特例把額度重置了一次。
那么你對 o1 還有哪些疑問或期待?歡迎評論區(qū)交流。
參考鏈接:
[1]https://x.com/SmokeAwayyy/status/1834641370486915417
[2]https://x.com/flowersslop/status/1834416138400276714
[3]https://arcprize.org/blog/openai-o1-results-arc-prize
[4]https://livebench.ai
[5]https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw
[6]https://x.com/OpenAIDevs/status/1834608585151594537
[7]https://x.com/btibor91/status/1834686946846597281
本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨、克雷西,原標題《o1 完整思維鏈成 OpenAI 頭號禁忌!問多了等著封號吧》
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。