o3 壓臺登場：OpenAI 卷動推理 AI 模型風(fēng)云，邁向 AGI 新巔峰

2024/12/21 7:05:41 來源：IT之家作者：故淵責(zé)編：故淵

評論：

感謝IT之家網(wǎng)友勇者阿帽、懶嘟嘟嘟、華南吳彥祖的線索投遞！

IT之家 12 月 21 日消息，“12 Days of OpenAI”活動已拉上帷幕，OpenAI 的 o3 系列大模型壓臺登場，官方稱在某些場景下，其推理能力非常接近通用人工智能（AGI）。

最新的 AI 模型為何跳過 o2，叫做 o3 呢？OpenAI 公司首席執(zhí)行官山姆?阿爾特曼（Sam Altman）在今天早上的直播活動，表示是為了規(guī)避和英國電信運營商 O2 的商標沖突。

o3 是 o1 推理模型的繼任者，包含完整版和精簡版（o3-mini），后者主要針對特定任務(wù)進行了微調(diào)。

OpenAI 公司暫未完全開放 o3 和 o3-mini 兩款模型，即日起先邀請安全研究人員，注冊測試預(yù)覽版 o3-mini 模型，后續(xù)再推出 o3 預(yù)覽版。

o3 壓臺登場：OpenAI 卷動推理 AI 模型風(fēng)云，邁向 AGI 新巔峰

現(xiàn)在，感興趣的朋友可以提交申請：https://openai.com/index/early-access-for-safety-testing/。

阿爾特曼并未公布 o3 模型的具體開放日期，僅透露 2025 年 1 月底推出 o3-mini，后續(xù)再推出 o3。

OpenAI o3 模型和主流 AI 模型的一個最大不同點，在于會展開事實核查，從而可以規(guī)避一些常見的模型陷阱，但這個過程會產(chǎn)生響應(yīng)延遲，根據(jù)推理難度，通常是幾秒到幾分鐘。

o3 系列模型的另一個亮點是使用“私人思想鏈”（private chain of thought）進行“思考”，它可以在響應(yīng)前暫停，考慮相關(guān)提示并解釋其推理過程，最終總結(jié)出最準確的答案。

o3 的新功能之一是可以調(diào)整推理時間，分為低、中、高三種計算級別，計算級別越高，o3 的任務(wù)執(zhí)行性能越好。

AGI 的全稱是 artificial general intelligence，直譯過來就是通用人工智能，泛指 AI 可以像人類一樣執(zhí)行任何任務(wù)，OpenAI 公司官方定義為“在最具經(jīng)濟價值的工作中超越人類的高度自治系統(tǒng)”。

OpenAI 公司正積極朝 AGI 目標邁進，除了鞏固其在 AI 領(lǐng)域的地位之外，還在投資領(lǐng)域有特別的含義。

根據(jù) OpenAI 與密切合作伙伴和投資者微軟的交易條款，一旦 OpenAI 達到 AGI，公司就不再有義務(wù)向微軟提供其最先進的技術(shù)（即符合 OpenAI 的 AGI 定義的技術(shù)）。

而 o3 是 OpenAI 是邁向該目標的重要一步，在 ARC-AGI 基準測試中，o3 在高計算設(shè)置下獲得了 87.5% 的分數(shù)，在低計算設(shè)置下得分為 75.7%，性能是 o1 的三倍。

ARC-AGI 聯(lián)合創(chuàng)始人 Fran?ois Chollet 表示，誠然高計算設(shè)置非常昂貴，每個任務(wù)要花費數(shù)千美元。

o3 壓臺登場：OpenAI 卷動推理 AI 模型風(fēng)云，邁向 AGI 新巔峰

IT之家援引該媒體報道，在其他基準測試中，o3 表現(xiàn)出色：

在 SWE-Bench Verified 編程任務(wù)基準測試中，o3 比 o1 高出 22.8 個百分點；
在 Codeforces 編程技能測試中，o3 獲得了 2727 的評分；
在 2024 年美國數(shù)學(xué)邀請賽中，o3 得分 96.7%；
在 GPQA Diamond 研究生水平生物、物理和化學(xué)測試中，o3 得分 87.7%；
在 EpochAI 的 Frontier Math 基準測試中，o3 解決了 25.2% 的問題（其他模型均不超過 2%），創(chuàng)造了新紀錄。

o3 壓臺登場：OpenAI 卷動推理 AI 模型風(fēng)云，邁向 AGI 新巔峰

這些結(jié)果來自 OpenAI 的內(nèi)部評估，需要等待外部客戶和機構(gòu)的基準測試結(jié)果來進一步驗證。

o3 的發(fā)布標志著 OpenAI 在通用人工智能領(lǐng)域邁出了重要一步。雖然 o3 的能力令人印象深刻，但其潛在風(fēng)險也需要引起重視。OpenAI 承諾將致力于模型安全，并與其他機構(gòu)合作構(gòu)建更完善的基準測試體系。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章