OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布

2025/4/17 1:27:45 來源：IT之家作者：汪淼責(zé)編：汪淼

評論：

感謝IT之家網(wǎng)友 GreatMOLA、耐小心的線索投遞！

IT之家 4 月 17 日消息，在今日凌晨的直播中，OpenAI 正式發(fā)布了 o3 和 o4-mini 模型。IT之家匯總內(nèi)容如下：

OpenAI 官方介紹稱，這是其在 o 系列模型中最新訓(xùn)練的成果，可以在回答前進(jìn)行更長時間的思考，也宣稱是“迄今為止 OpenAI 發(fā)布的最智能的模型”，代表了 ChatGPT 能力的一次重大飛躍，從好奇的用戶到高級研究人員都將因此受益。

OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布

首次，新的推理模型可以智能地使用和結(jié)合 ChatGPT 中的每一個工具 —— 包括搜索網(wǎng)絡(luò)、使用 Python 分析上傳的文件和其他數(shù)據(jù)、深入推理視覺輸入，甚至生成圖像。

關(guān)鍵的是，這些模型被訓(xùn)練來推理何時以及如何使用工具來產(chǎn)生詳細(xì)和深思熟慮的答案，通常在不到一分鐘內(nèi)，以解決更復(fù)雜的問題。這使得它們能夠更有效地處理多方面的問題，朝著更智能、能夠獨立執(zhí)行任務(wù)的 ChatGPT 邁進(jìn)。

性能表現(xiàn)

o3 是 OpenAI 最強(qiáng)大的推理模型，它在編碼、數(shù)學(xué)、科學(xué)、視覺感知等領(lǐng)域號稱處于前沿，在包括 Codeforces、SWE-bench 和 MMMU 在內(nèi)的基準(zhǔn)測試中實現(xiàn)了新的 SOTA。

OpenAI 稱，o3 非常適合需要多方面分析和答案可能不明顯的高級查詢。它在分析圖像、圖表和圖形等視覺任務(wù)上表現(xiàn)尤為出色。在外部專家的評估中，o3 在困難、現(xiàn)實世界的任務(wù)上比 OpenAI o1 少犯 20% 的重大錯誤 —— 特別是在編程、商業(yè) / 咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色。

早期測試者強(qiáng)調(diào)了其作為思維伙伴的分析嚴(yán)謹(jǐn)性，并強(qiáng)調(diào)了其生成和批判性地評估新穎假設(shè)的能力 —— 特別是在生物學(xué)、數(shù)學(xué)和工程背景下。

OpenAI o4-mini 是一個針對快速、成本效益推理進(jìn)行優(yōu)化的較小模型 —— 它在其大小和成本方面取得了“令人矚目的性能”，尤其是在數(shù)學(xué)、編碼和視覺任務(wù)上。在 AIME 2025 上，當(dāng)提供 Python 解釋器時，o4-mini 得分 99.5%。在專家評估中，它還在非 STEM 任務(wù)以及數(shù)據(jù)科學(xué)等領(lǐng)域相比前輩 o3－mini 表現(xiàn)更出色。得益于其效率，o4-mini 支持比 o3 高得多的使用限制，使其成為推理受益問題的強(qiáng)大高容量、高吞吐量選項。

與 OpenAI 的前幾代推理模型相比，這兩個模型也支持更加自然的對話，尤其是在它們參考記憶和過去的對話來使響應(yīng)更加個性化和相關(guān)時。

OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布

能夠推理圖片

在整個 OpenAI o3 的開發(fā)過程中，OpenAI 發(fā)現(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)表現(xiàn)出與 GPT 系列預(yù)訓(xùn)練中觀察到的相同的“更多計算能力 = 更好性能”趨勢。通過重走擴(kuò)展路徑，OpenAI 在訓(xùn)練計算和推理時間上又推進(jìn)了一個數(shù)量級，但仍然看到了明顯的性能提升，這驗證了隨著模型被允許進(jìn)行更多思考，其性能仍在持續(xù)提升。與 OpenAI o1 相比，在相同的延遲和成本下，o3 在 ChatGPT 中提供了更高的性能 —— 如果我們讓它思考更長的時間，其性能會持續(xù)攀升。

從下面這個實例可以看到，這些模型可以直接將圖像整合到它們的思維鏈中。它們不僅僅是看圖像 —— 而是用圖像思考。這解鎖了一種新的問題解決類別，融合了視覺和文本推理。

OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布

人們可以上傳白板照片、教科書圖表或手繪草圖，即使圖像模糊、顛倒或質(zhì)量很低，模型也可以解讀它們。通過使用工具，模型甚至可以實時操作圖像 —— 旋轉(zhuǎn)、縮放或?qū)⑵渥鳛橥评磉^程的一部分進(jìn)行變換。

OpenAI o3 和 o4-mini 可以完全訪問 ChatGPT 中的工具，以及通過 API 中的函數(shù)調(diào)用使用開發(fā)者自己的自定義工具。OpenAI 稱，這些模型經(jīng)過訓(xùn)練，能夠推理如何解決問題，選擇何時以及如何使用工具，以快速生成詳細(xì)且深思熟慮的答案，通常在不到一分鐘內(nèi)完成。

例如，用戶可能會問：“加利福尼亞的夏季能源使用量與去年相比如何？”該模型可以搜索公共事業(yè)數(shù)據(jù)，編寫 Python 代碼進(jìn)行預(yù)測，生成圖表或圖像，并解釋預(yù)測背后的關(guān)鍵因素，通過多個工具調(diào)用串聯(lián)起來。推理能力使模型能夠根據(jù)遇到的信息做出反應(yīng)和調(diào)整。例如，它們可以在搜索提供商的幫助下多次搜索網(wǎng)絡(luò)，查看結(jié)果，并在需要更多信息時嘗試新的搜索。

成本

從成本來看，OpenAI 號稱 o3 和 o4-mini 是其發(fā)布過的最智能的模型，它們通常也比 o1 和 o3－mini 更高效。例如，在 2025 AIME 數(shù)學(xué)競賽中，o3 的性價比優(yōu)于 o1；同樣，o4-mini 也優(yōu)于 o3－mini。

OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布

安全性

安全性方面，OpenAI o3 和 o4-mini 完全重建了安全訓(xùn)練數(shù)據(jù)，在生物威脅（生物風(fēng)險）、惡意軟件生成和越獄等領(lǐng)域添加了新的拒絕提示。這些更新的數(shù)據(jù)使 o3 和 o4-mini 在其內(nèi)部拒絕基準(zhǔn)測試中取得了優(yōu)異的成績（例如，指令層次結(jié)構(gòu)、越獄）。

除了在模型拒絕方面表現(xiàn)出色外，OpenAI 還開發(fā)了系統(tǒng)級緩解措施，以標(biāo)記前沿風(fēng)險領(lǐng)域的危險提示。類似于在圖像生成方面的早期工作，OpenAI 訓(xùn)練了一個推理 LLM 監(jiān)控器，該監(jiān)控器從人類編寫的可解釋安全規(guī)范中工作。當(dāng)應(yīng)用于生物風(fēng)險時，該監(jiān)控器成功標(biāo)記了約 99% 的對話。

怎么使用

ChatGPT Plus、Pro 和 Team 用戶將從今天開始可以在模型選擇器中看到 o3、o4-mini 和 o4-mini-high，取代 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用戶將在一周后獲得訪問權(quán)限。免費(fèi)用戶可以在提交查詢前選擇“思考”來嘗試 o4-mini。所有計劃中的速率限制與之前的一組模型保持不變。

OpenAI 預(yù)計將在幾周內(nèi)發(fā)布 OpenAI o3-pro，并支持全部工具。目前，Pro 用戶仍然可以訪問 o1-pro。

今天更新的內(nèi)容反映了 OpenAI 模型的發(fā)展方向 —— 將 o 系列的專業(yè)推理能力與 GPT 系列的自然對話能力和工具使用能力相結(jié)合。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布

性能表現(xiàn)

能夠推理圖片

成本

安全性

怎么使用

相關(guān)文章

OpenAI 最強(qiáng)推理模型、能夠“思考”圖片，o3 和 o4-mini 正式發(fā)布