IT之家 12 月 21 日消息,“12 Days of OpenAI”活動已拉上帷幕,OpenAI 的 o3 系列大模型壓臺登場,官方稱在某些場景下,其推理能力非常接近通用人工智能(AGI)。
名稱
最新的 AI 模型為何跳過 o2,叫做 o3 呢?OpenAI 公司首席執(zhí)行官山姆?阿爾特曼(Sam Altman)在今天早上的直播活動,表示是為了規(guī)避和英國電信運營商 O2 的商標(biāo)沖突。
邀請安全測試
o3 是 o1 推理模型的繼任者,包含完整版和精簡版(o3-mini),后者主要針對特定任務(wù)進(jìn)行了微調(diào)。
OpenAI 公司暫未完全開放 o3 和 o3-mini 兩款模型,即日起先邀請安全研究人員,注冊測試預(yù)覽版 o3-mini 模型,后續(xù)再推出 o3 預(yù)覽版。
現(xiàn)在,感興趣的朋友可以提交申請:https://openai.com/index/early-access-for-safety-testing/。
阿爾特曼并未公布 o3 模型的具體開放日期,僅透露 2025 年 1 月底推出 o3-mini,后續(xù)再推出 o3。
o3 模型推理
OpenAI o3 模型和主流 AI 模型的一個最大不同點,在于會展開事實核查,從而可以規(guī)避一些常見的模型陷阱,但這個過程會產(chǎn)生響應(yīng)延遲,根據(jù)推理難度,通常是幾秒到幾分鐘。
o3 系列模型的另一個亮點是使用“私人思想鏈”(private chain of thought)進(jìn)行“思考”,它可以在響應(yīng)前暫停,考慮相關(guān)提示并解釋其推理過程,最終總結(jié)出最準(zhǔn)確的答案。
o3 的新功能之一是可以調(diào)整推理時間,分為低、中、高三種計算級別,計算級別越高,o3 的任務(wù)執(zhí)行性能越好。
性能和 AGI
AGI 的全稱是 artificial general intelligence,直譯過來就是通用人工智能,泛指 AI 可以像人類一樣執(zhí)行任何任務(wù),OpenAI 公司官方定義為“在最具經(jīng)濟(jì)價值的工作中超越人類的高度自治系統(tǒng)”。
OpenAI 公司正積極朝 AGI 目標(biāo)邁進(jìn),除了鞏固其在 AI 領(lǐng)域的地位之外,還在投資領(lǐng)域有特別的含義。
根據(jù) OpenAI 與密切合作伙伴和投資者微軟的交易條款,一旦 OpenAI 達(dá)到 AGI,公司就不再有義務(wù)向微軟提供其最先進(jìn)的技術(shù)(即符合 OpenAI 的 AGI 定義的技術(shù))。
而 o3 是 OpenAI 是邁向該目標(biāo)的重要一步,在 ARC-AGI 基準(zhǔn)測試中,o3 在高計算設(shè)置下獲得了 87.5% 的分?jǐn)?shù),在低計算設(shè)置下得分為 75.7%,性能是 o1 的三倍。
ARC-AGI 聯(lián)合創(chuàng)始人 Fran?ois Chollet 表示,誠然高計算設(shè)置非常昂貴,每個任務(wù)要花費數(shù)千美元。
IT之家援引該媒體報道,在其他基準(zhǔn)測試中,o3 表現(xiàn)出色:
在 SWE-Bench Verified 編程任務(wù)基準(zhǔn)測試中,o3 比 o1 高出 22.8 個百分點;
在 Codeforces 編程技能測試中,o3 獲得了 2727 的評分;
在 2024 年美國數(shù)學(xué)邀請賽中,o3 得分 96.7%;
在 GPQA Diamond 研究生水平生物、物理和化學(xué)測試中,o3 得分 87.7%;
在 EpochAI 的 Frontier Math 基準(zhǔn)測試中,o3 解決了 25.2% 的問題(其他模型均不超過 2%),創(chuàng)造了新紀(jì)錄。
這些結(jié)果來自 OpenAI 的內(nèi)部評估,需要等待外部客戶和機(jī)構(gòu)的基準(zhǔn)測試結(jié)果來進(jìn)一步驗證。
安全
o3 的發(fā)布標(biāo)志著 OpenAI 在通用人工智能領(lǐng)域邁出了重要一步。雖然 o3 的能力令人印象深刻,但其潛在風(fēng)險也需要引起重視。OpenAI 承諾將致力于模型安全,并與其他機(jī)構(gòu)合作構(gòu)建更完善的基準(zhǔn)測試體系。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。