9 月 14 日消息,OpenAI 已經(jīng)推出了新模型 OpenAI o1 的兩大變體 ——o1-preview 與 o1-mini,這兩款模型都有許多值得深入探討的內(nèi)容。人工智能專家西蒙?威利森(Simon Willison)專門發(fā)文,深入剖析了這些新模型背后的設(shè)計理念與實現(xiàn)細(xì)節(jié),揭示了它們在技術(shù)上的獨特優(yōu)勢與不足。威利森表示,o1 并不是簡單的 GPT-4o 直接升級版,而是在強化“推理”能力的同時,做出了成本與性能上的權(quán)衡。
1. 訓(xùn)練思維鏈
OpenAI 的聲明是一個很好的起點:“我們研發(fā)了一系列新型人工智能模型,旨在讓它們在做出響應(yīng)前花更多時間思考?!?/p>
這些新模型可以視為思維鏈提示策略的深化拓展 ——“分步思維”策略的具體實踐。實際上,人工智能社區(qū)在這個領(lǐng)域已探索了數(shù)年,這一策略首次在 2022 年 5 月發(fā)布的論文《大語言模型是零樣本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。
OpenAI 發(fā)布的《與大語言模型共學(xué)推理》(Learning to Reason with LLMs)一文詳細(xì)闡述了新模型的訓(xùn)練方法,揭示了其能力提升背后的秘密。文中指出:
“我們的大規(guī)模強化學(xué)習(xí)算法精心設(shè)計了訓(xùn)練流程,使模型在高效利用數(shù)據(jù)的同時,能夠熟練運用思維鏈進行深度思考。我們發(fā)現(xiàn),隨著強化學(xué)習(xí)訓(xùn)練時間的增加以及模型在測試時分配更多思考時間,o1 的性能持續(xù)顯著提升。值得注意的是,這種擴展方法的限制與大語言模型預(yù)訓(xùn)練中的挑戰(zhàn)有很大不同,我們正繼續(xù)深入探索這些新界限?!?/p>
通過強化學(xué)習(xí)的訓(xùn)練,o1 不僅學(xué)會了優(yōu)化其思維鏈的使用,還掌握了自我提升的關(guān)鍵技能。o1 能夠識別并糾正錯誤,將復(fù)雜難題拆解為一系列更易處理的子任務(wù)。當(dāng)現(xiàn)有方法失效時,它會嘗試不同的方法直至找到最佳解法。這一過程極大提升了模型的推理能力。
實際上,這標(biāo)志著模型在處理復(fù)雜提示方面實現(xiàn)了質(zhì)的飛躍。面對那些需要回溯與深入“思考”的任務(wù)時,模型能夠展現(xiàn)出更加出色的表現(xiàn),而不再僅僅依賴于下一個 Token 預(yù)測。
威利森指出,雖然他對“推理”一詞在大語言模型中的定義有保留,但鑒于 OpenAI 已明確采用此術(shù)語,并成功表達(dá)了新模型致力于解決的核心問題,他認(rèn)為這種表達(dá)在此情境下是恰當(dāng)且有效的。
2. 來自 API 文檔的底層細(xì)節(jié)
關(guān)于新模型及其設(shè)計權(quán)衡,OpenAI 在 API 文檔中提供了許多有趣的細(xì)節(jié):
對于依賴圖像輸入、函數(shù)調(diào)用或追求即時響應(yīng)速度的應(yīng)用場景,GPT-4o 及其精簡版 GPT-4o mini 仍是理想選擇。然而,如果你的項目需要深度推理能力,且能夠適應(yīng)較長的響應(yīng)時間,那么 o1 模型無疑是更優(yōu)的選擇。
威利森從 OpenAI 的文檔中摘錄了幾個關(guān)鍵點:
API 訪問權(quán)限:目前,o1-preview 與 o1-mini 的訪問僅限于五級賬戶用戶,且 API 積分累計需達(dá)到至少 1,000 美元方可解鎖。
系統(tǒng)提示限制:模型集成了現(xiàn)有的聊天完成 API,但僅支持用戶與助手之間的消息交互,不支持系統(tǒng)提示功能。
其他功能限制:當(dāng)前模型不提供流處理支持、工具集成、批處理調(diào)用或圖像輸入。
響應(yīng)時間:鑒于模型解決問題所需推理量的不同,處理請求的時間可能介于幾秒至幾分鐘不等。
尤為引人注目的是“推理 Token”的引入。這些 Token 在 API 響應(yīng)中不可見,卻扮演著至關(guān)重要的角色,是驅(qū)動新模型能力的核心,且作為輸出 Token 計費并計數(shù)。鑒于推理 Token 的重要性,OpenAI 建議為充分利用新模型的提示預(yù)留約 25,000 個推理 Token 的預(yù)算。
為此,輸出 Token 的配額顯著提升:o1-preview 的配額增至 32,768 個,而 o1-mini 則高達(dá) 65,536 個。相比于 GPT-4o 及其 mini 版(兩者的配額均為 16,384 個),這一增加為用戶提供了更多資源。
API 文檔還提供了一個新穎且關(guān)鍵的提示,旨在優(yōu)化檢索增強生成(RAG):在整合附加上下文或文檔時,應(yīng)嚴(yán)格篩選,保留最相關(guān)的信息,以避免模型生成過于復(fù)雜的響應(yīng)。這與 RAG 的傳統(tǒng)做法截然不同,后者傾向于將大量潛在相關(guān)文檔納入提示。
3. 隱藏的推理 Token
令人遺憾的是,推理 Token 在 API 調(diào)用中處于隱藏狀態(tài)。用戶需要為這些 Token 支付費用,卻無法得知其具體內(nèi)容。OpenAI 對此政策的解釋如下:
“隱藏思維鏈的初衷在于確保模型‘思維’過程的獨立性和表達(dá)自由,避免外界干預(yù)或操控其推理邏輯。展示模型的完整思維鏈可能暴露不一致性,并影響用戶體驗?!?/p>
這項決策基于多重考量:一方面是為了確保安全與策略的遵從性,另一方面則是為了保持技術(shù)上的競爭優(yōu)勢,避免競爭對手利用推理成果進行訓(xùn)練。
作為對大語言模型發(fā)展持保留意見的一方,威利森對此決定并不滿意。他認(rèn)為,在追求技術(shù)創(chuàng)新的同時,保持可解釋性與透明度至關(guān)重要。關(guān)鍵細(xì)節(jié)的隱藏,意味著對透明度的一種削弱,感覺像是一個倒退的舉措。
4.示例解讀
OpenAI 在“思維鏈”部分提供了許多示例,包括 Bash 腳本生成、填字游戲解答和化學(xué)溶液 pH 值計算等,初步展示了這些模型在 ChatGPT 用戶界面下的思維鏈能力。但它并未展示原始的推理 Token,而是通過一種優(yōu)化機制,將復(fù)雜的推理步驟簡化為易于理解的摘要。
OpenAI 還額外提供了兩份文檔,展示了更為復(fù)雜的例子。在“使用推理進行數(shù)據(jù)驗證”一例中,o1-preview 演示了如何在 11 列 CSV 數(shù)據(jù)中生成示例,并通過多種策略驗證數(shù)據(jù)的正確性;而“使用推理生成例程”則展示了如何將知識庫文章轉(zhuǎn)化為大語言模型能夠解析并執(zhí)行的標(biāo)準(zhǔn)化操作流程。
威利森也在社交媒體上征集了許多 GPT-4o 未能成功應(yīng)對卻在 o1-preview 上表現(xiàn)出色的提示案例。其中兩個尤為引人注目:
字?jǐn)?shù)計數(shù)挑戰(zhàn):“你對這個提示的回答有多少字?” o1-preview 模型在給出“這個句子里有七個單詞”之前,耗時約十秒并經(jīng)歷了五次推理過程。
幽默解析:“解釋一下這個笑話:‘兩頭牛站在地里,一頭牛問另一頭:‘你怎么看瘋牛病?’ 另一頭說:‘無所謂,我是直升機?!?o1-preview 給出了既合理又詳細(xì)的解釋,而其他模型對此無解。
盡管如此,優(yōu)質(zhì)的示例仍然較少。OpenAI 研究員 Jason Wei 指出,盡管 o1 在 AIME 和 GPQA 測試中的表現(xiàn)非常強大,但這種效果并不總是直觀可感。找到讓 GPT-4o 失手而 o1 表現(xiàn)出色的提示并不容易,但當(dāng)你找到時,o1 的表現(xiàn)堪稱神奇。大家都需要尋找更具挑戰(zhàn)性的提示。
另一方面,沃頓商學(xué)院管理學(xué)教授、人工智能專家伊森?莫里克(Ethan Mollick)通過幾周的預(yù)覽體驗,對 o1 給出了初步評價。他特別提到了一個填字游戲示例,其中 o1-preview 模型展現(xiàn)了清晰的推理步驟,如指出 1 Across 與 1 Down 的首字母不匹配,并主動建議替換答案以確保一致性。
5.推理模型的未來
人工智能領(lǐng)域這一新進展帶來了諸多待解之謎與潛在機遇,社區(qū)正逐步探索這些模型的最佳應(yīng)用場景。在此期間,威利森預(yù)計 GPT-4o(及 Claude 3.5 Sonnet 等模型)將繼續(xù)發(fā)揮重要作用。同時,我們也將見證這些推理模型如何擴展我們的思維模式,解決更多前所未有的任務(wù)。
此外,威利森期待其他 AI 實驗室,特別是開放模型權(quán)重社區(qū),能夠積極跟進,利用各自獨特的模型版本復(fù)現(xiàn)并深化這些思維鏈推理的成果。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。