OpenAI o1 非 GPT-4o 直接進(jìn)化，在成本與性能上妥協(xié)

2024/9/14 22:40:51 來源：網(wǎng)易科技作者：小小責(zé)編：遠(yuǎn)洋

評論：

9 月 14 日消息，OpenAI 已經(jīng)推出了新模型 OpenAI o1 的兩大變體 ——o1-preview 與 o1-mini，這兩款模型都有許多值得深入探討的內(nèi)容。人工智能專家西蒙?威利森（Simon Willison）專門發(fā)文，深入剖析了這些新模型背后的設(shè)計(jì)理念與實(shí)現(xiàn)細(xì)節(jié)，揭示了它們在技術(shù)上的獨(dú)特優(yōu)勢與不足。威利森表示，o1 并不是簡單的 GPT-4o 直接升級版，而是在強(qiáng)化“推理”能力的同時，做出了成本與性能上的權(quán)衡。

1. 訓(xùn)練思維鏈

OpenAI 的聲明是一個很好的起點(diǎn)：“我們研發(fā)了一系列新型人工智能模型，旨在讓它們在做出響應(yīng)前花更多時間思考?！?/p>

這些新模型可以視為思維鏈提示策略的深化拓展 ——“分步思維”策略的具體實(shí)踐。實(shí)際上，人工智能社區(qū)在這個領(lǐng)域已探索了數(shù)年，這一策略首次在 2022 年 5 月發(fā)布的論文《大語言模型是零樣本推理器》（Large Language Models are Zero-Shot Reasoners）中提出。

OpenAI 發(fā)布的《與大語言模型共學(xué)推理》（Learning to Reason with LLMs）一文詳細(xì)闡述了新模型的訓(xùn)練方法，揭示了其能力提升背后的秘密。文中指出：

“我們的大規(guī)模強(qiáng)化學(xué)習(xí)算法精心設(shè)計(jì)了訓(xùn)練流程，使模型在高效利用數(shù)據(jù)的同時，能夠熟練運(yùn)用思維鏈進(jìn)行深度思考。我們發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)訓(xùn)練時間的增加以及模型在測試時分配更多思考時間，o1 的性能持續(xù)顯著提升。值得注意的是，這種擴(kuò)展方法的限制與大語言模型預(yù)訓(xùn)練中的挑戰(zhàn)有很大不同，我們正繼續(xù)深入探索這些新界限。”

通過強(qiáng)化學(xué)習(xí)的訓(xùn)練，o1 不僅學(xué)會了優(yōu)化其思維鏈的使用，還掌握了自我提升的關(guān)鍵技能。o1 能夠識別并糾正錯誤，將復(fù)雜難題拆解為一系列更易處理的子任務(wù)。當(dāng)現(xiàn)有方法失效時，它會嘗試不同的方法直至找到最佳解法。這一過程極大提升了模型的推理能力。

實(shí)際上，這標(biāo)志著模型在處理復(fù)雜提示方面實(shí)現(xiàn)了質(zhì)的飛躍。面對那些需要回溯與深入“思考”的任務(wù)時，模型能夠展現(xiàn)出更加出色的表現(xiàn)，而不再僅僅依賴于下一個 Token 預(yù)測。

威利森指出，雖然他對“推理”一詞在大語言模型中的定義有保留，但鑒于 OpenAI 已明確采用此術(shù)語，并成功表達(dá)了新模型致力于解決的核心問題，他認(rèn)為這種表達(dá)在此情境下是恰當(dāng)且有效的。

2. 來自 API 文檔的底層細(xì)節(jié)

關(guān)于新模型及其設(shè)計(jì)權(quán)衡，OpenAI 在 API 文檔中提供了許多有趣的細(xì)節(jié)：

對于依賴圖像輸入、函數(shù)調(diào)用或追求即時響應(yīng)速度的應(yīng)用場景，GPT-4o 及其精簡版 GPT-4o mini 仍是理想選擇。然而，如果你的項(xiàng)目需要深度推理能力，且能夠適應(yīng)較長的響應(yīng)時間，那么 o1 模型無疑是更優(yōu)的選擇。

威利森從 OpenAI 的文檔中摘錄了幾個關(guān)鍵點(diǎn)：

API 訪問權(quán)限：目前，o1-preview 與 o1-mini 的訪問僅限于五級賬戶用戶，且 API 積分累計(jì)需達(dá)到至少 1,000 美元方可解鎖。

系統(tǒng)提示限制：模型集成了現(xiàn)有的聊天完成 API，但僅支持用戶與助手之間的消息交互，不支持系統(tǒng)提示功能。

其他功能限制：當(dāng)前模型不提供流處理支持、工具集成、批處理調(diào)用或圖像輸入。

響應(yīng)時間：鑒于模型解決問題所需推理量的不同，處理請求的時間可能介于幾秒至幾分鐘不等。

尤為引人注目的是“推理 Token”的引入。這些 Token 在 API 響應(yīng)中不可見，卻扮演著至關(guān)重要的角色，是驅(qū)動新模型能力的核心，且作為輸出 Token 計(jì)費(fèi)并計(jì)數(shù)。鑒于推理 Token 的重要性，OpenAI 建議為充分利用新模型的提示預(yù)留約 25,000 個推理 Token 的預(yù)算。

為此，輸出 Token 的配額顯著提升：o1-preview 的配額增至 32,768 個，而 o1-mini 則高達(dá) 65,536 個。相比于 GPT-4o 及其 mini 版（兩者的配額均為 16,384 個），這一增加為用戶提供了更多資源。

API 文檔還提供了一個新穎且關(guān)鍵的提示，旨在優(yōu)化檢索增強(qiáng)生成（RAG）：在整合附加上下文或文檔時，應(yīng)嚴(yán)格篩選，保留最相關(guān)的信息，以避免模型生成過于復(fù)雜的響應(yīng)。這與 RAG 的傳統(tǒng)做法截然不同，后者傾向于將大量潛在相關(guān)文檔納入提示。

3. 隱藏的推理 Token

令人遺憾的是，推理 Token 在 API 調(diào)用中處于隱藏狀態(tài)。用戶需要為這些 Token 支付費(fèi)用，卻無法得知其具體內(nèi)容。OpenAI 對此政策的解釋如下：

“隱藏思維鏈的初衷在于確保模型‘思維’過程的獨(dú)立性和表達(dá)自由，避免外界干預(yù)或操控其推理邏輯。展示模型的完整思維鏈可能暴露不一致性，并影響用戶體驗(yàn)?！?/p>

這項(xiàng)決策基于多重考量：一方面是為了確保安全與策略的遵從性，另一方面則是為了保持技術(shù)上的競爭優(yōu)勢，避免競爭對手利用推理成果進(jìn)行訓(xùn)練。

作為對大語言模型發(fā)展持保留意見的一方，威利森對此決定并不滿意。他認(rèn)為，在追求技術(shù)創(chuàng)新的同時，保持可解釋性與透明度至關(guān)重要。關(guān)鍵細(xì)節(jié)的隱藏，意味著對透明度的一種削弱，感覺像是一個倒退的舉措。

4.示例解讀

OpenAI 在“思維鏈”部分提供了許多示例，包括 Bash 腳本生成、填字游戲解答和化學(xué)溶液 pH 值計(jì)算等，初步展示了這些模型在 ChatGPT 用戶界面下的思維鏈能力。但它并未展示原始的推理 Token，而是通過一種優(yōu)化機(jī)制，將復(fù)雜的推理步驟簡化為易于理解的摘要。

OpenAI 還額外提供了兩份文檔，展示了更為復(fù)雜的例子。在“使用推理進(jìn)行數(shù)據(jù)驗(yàn)證”一例中，o1-preview 演示了如何在 11 列 CSV 數(shù)據(jù)中生成示例，并通過多種策略驗(yàn)證數(shù)據(jù)的正確性；而“使用推理生成例程”則展示了如何將知識庫文章轉(zhuǎn)化為大語言模型能夠解析并執(zhí)行的標(biāo)準(zhǔn)化操作流程。

威利森也在社交媒體上征集了許多 GPT-4o 未能成功應(yīng)對卻在 o1-preview 上表現(xiàn)出色的提示案例。其中兩個尤為引人注目：

字?jǐn)?shù)計(jì)數(shù)挑戰(zhàn)：“你對這個提示的回答有多少字？” o1-preview 模型在給出“這個句子里有七個單詞”之前，耗時約十秒并經(jīng)歷了五次推理過程。

幽默解析：“解釋一下這個笑話：‘兩頭牛站在地里，一頭牛問另一頭：‘你怎么看瘋牛病?’ 另一頭說：‘無所謂，我是直升機(jī)?！?o1-preview 給出了既合理又詳細(xì)的解釋，而其他模型對此無解。

盡管如此，優(yōu)質(zhì)的示例仍然較少。OpenAI 研究員 Jason Wei 指出，盡管 o1 在 AIME 和 GPQA 測試中的表現(xiàn)非常強(qiáng)大，但這種效果并不總是直觀可感。找到讓 GPT-4o 失手而 o1 表現(xiàn)出色的提示并不容易，但當(dāng)你找到時，o1 的表現(xiàn)堪稱神奇。大家都需要尋找更具挑戰(zhàn)性的提示。

另一方面，沃頓商學(xué)院管理學(xué)教授、人工智能專家伊森?莫里克（Ethan Mollick）通過幾周的預(yù)覽體驗(yàn)，對 o1 給出了初步評價。他特別提到了一個填字游戲示例，其中 o1-preview 模型展現(xiàn)了清晰的推理步驟，如指出 1 Across 與 1 Down 的首字母不匹配，并主動建議替換答案以確保一致性。

5.推理模型的未來

人工智能領(lǐng)域這一新進(jìn)展帶來了諸多待解之謎與潛在機(jī)遇，社區(qū)正逐步探索這些模型的最佳應(yīng)用場景。在此期間，威利森預(yù)計(jì) GPT-4o（及 Claude 3.5 Sonnet 等模型）將繼續(xù)發(fā)揮重要作用。同時，我們也將見證這些推理模型如何擴(kuò)展我們的思維模式，解決更多前所未有的任務(wù)。

此外，威利森期待其他 AI 實(shí)驗(yàn)室，特別是開放模型權(quán)重社區(qū)，能夠積極跟進(jìn)，利用各自獨(dú)特的模型版本復(fù)現(xiàn)并深化這些思維鏈推理的成果。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI o1 非 GPT-4o 直接進(jìn)化，在成本與性能上妥協(xié)

相關(guān)文章