選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

新智元 2025/4/21 13:38:47 責(zé)編：清源

評(píng)論：

一句話(huà)看懂：o3 以深度推理與工具調(diào)用能力領(lǐng)跑復(fù)雜任務(wù)，GPT-4.1 超長(zhǎng)上下文與精準(zhǔn)指令執(zhí)行適合 API 開(kāi)發(fā)，而 o4-mini 則堪稱(chēng)日常任務(wù)的「性?xún)r(jià)比之王」。

如果你最近關(guān)注 AI 新聞，可能會(huì)被各種層出不窮的新模型搞得眼花繚亂。

尤其是堪稱(chēng)「起名黑洞」的 OpenAI，命起名來(lái)可謂是毫無(wú)章法。

即便是 AI 圈的資深團(tuán)隊(duì)，在面對(duì)同時(shí)發(fā)布的 o3、o4-mini、GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 時(shí)，也是蒙圈的。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

為了解決這個(gè)困擾，來(lái)自 Every 和 DataCamp 的團(tuán)隊(duì)在經(jīng)過(guò)反復(fù)測(cè)試、來(lái)回切換模型，折騰了很多提示詞后，得出了以下結(jié)論：

o3：OpenAI 最新的旗艦?zāi)Ｐ?，也是最?huì)「深度思考」的選手 —— 專(zhuān)為自主復(fù)雜推理與工具調(diào)用設(shè)計(jì)。
o4?mini：效率發(fā)動(dòng)機(jī) —— 速度快、價(jià)格低，對(duì)數(shù)學(xué)、視覺(jué)推理和成本敏感型開(kāi)發(fā)任務(wù)表現(xiàn)驚人。它不是明星旗艦，也不是基準(zhǔn)霸主，但憑借效率優(yōu)勢(shì)，完全可以承擔(dān)一般的任務(wù)。
GPT?4.1：API 專(zhuān)用的主力干將 —— 指令遵循嚴(yán)謹(jǐn)，長(zhǎng)上下文記憶出眾。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

接下來(lái)，看看這三款模型的新特性、各自擅長(zhǎng)什么，以及在 Every 團(tuán)隊(duì)的工作流中，它們實(shí)際表現(xiàn)如何。

o3——OpenAI 最強(qiáng)推理模型

o3 是 OpenAI 最新的前沿模型，旨在提升其在編碼、數(shù)學(xué)、科學(xué)與視覺(jué)感知等復(fù)雜任務(wù)上的推理能力。

它也是首個(gè)具備自主工具調(diào)用能力的推理模型，可使用搜索、Python、圖像生成以及圖像解讀等工具來(lái)完成任務(wù)。

憑借這一能力，就讓它在針對(duì)現(xiàn)實(shí)世界問(wèn)題求解的高級(jí)基準(zhǔn)測(cè)試中表現(xiàn)出色，而此前的模型往往難以勝任。

OpenAI 特別強(qiáng)調(diào)了 o3 相較于 o1 的顯著提升，并將其定位為迄今為止功能最強(qiáng)、適用面最廣的模型。

o3 不只是像 GPT?4o 那樣會(huì)用工具、能看圖 —— 它還能把這些工具和圖像融入自己的推理過(guò)程。

o3 的優(yōu)勢(shì)

?工具調(diào)用

o3 既懂得如何使用單個(gè)工具，也知道如何把多種工具串聯(lián)起來(lái)，并在關(guān)鍵時(shí)刻切換方案。

假設(shè)你上傳一張?jiān)露蠕N(xiāo)售圖表，它可能先用 OCR 提取數(shù)據(jù)，再寫(xiě) Python 代碼計(jì)算同比增長(zhǎng)，隨后檢索行業(yè)基準(zhǔn)為結(jié)果提供背景 —— 一氣呵成。

在單條回復(fù)中，它最多可調(diào)用 600 次工具，邊執(zhí)行邊自我優(yōu)化；一旦出現(xiàn)問(wèn)題，也能迅速調(diào)整方向。就像一位自驅(qū)的分析師，隨身攜帶瑞士軍刀，而且知道什么時(shí)候該用哪一把刀。

?視覺(jué)推理

o3 會(huì)帶著真實(shí)語(yǔ)境去深度解析圖像。其他模型也許只會(huì)說(shuō)「這是一幅描繪女性的畫(huà)」，而 o3 會(huì)放大畫(huà)角，讀出畫(huà)家簽名，查出畫(huà)作懸掛的博物館，并為你講述其所屬藝術(shù)流派的歷史。

o3 的技術(shù)創(chuàng)新

性能大幅躍升絕非偶然。OpenAI 團(tuán)隊(duì)通過(guò)多項(xiàng)突破，才拿出了如此漂亮的成績(jī)單：

?擴(kuò)展強(qiáng)化學(xué)習(xí)

OpenAI 發(fā)現(xiàn)，只要在強(qiáng)化學(xué)習(xí)階段提升算力投入，模型效果就能顯著提升，這與 GPT 系列在監(jiān)督預(yù)訓(xùn)練里的「越算越強(qiáng)」規(guī)律如出一轍。不同的是，此時(shí)的 o3 并非優(yōu)化「下一詞預(yù)測(cè)」，而是通過(guò)最大化強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)，且常在工具增強(qiáng)環(huán)境中訓(xùn)練。

實(shí)質(zhì)上，OpenAI 把強(qiáng)化學(xué)習(xí)當(dāng)成了「放大版預(yù)訓(xùn)練」：訓(xùn)練更久、用更多算力，結(jié)果也更好。由此解鎖了長(zhǎng)期規(guī)劃與序列推理等能力，例如競(jìng)技編程、多步數(shù)學(xué)證明。再配合工具調(diào)用，性能增益更加明顯。

?動(dòng)態(tài)視覺(jué)推理

o3 在視覺(jué)推理上同樣大幅躍進(jìn)。它不僅能理解圖片，還把圖像直接納入推理循環(huán) —— 解釋、操作、反復(fù)查看都不在話(huà)下。因而在科學(xué)圖表、數(shù)學(xué)示意圖，甚至通過(guò)照片排定日程等任務(wù)上表現(xiàn)突出。

核心做法是：在整個(gè)推理過(guò)程中始終保留原圖。

與傳統(tǒng)「生成文本描述后就丟圖」的做法不同，o3 可借助工具隨時(shí)放大、旋轉(zhuǎn)、重看圖像任意區(qū)域，使推理更靈活，也能處理更凌亂的視覺(jué)輸入，如模糊白板、手繪草圖或會(huì)議日程照片。

舉個(gè)例子，OpenAI 讓 o3 讀取一張低清晰度的演出排期照片，并規(guī)劃一份在每場(chǎng)活動(dòng)之間留出 10 分鐘休息的行程 —— 既要解析視覺(jué)布局，又得實(shí)時(shí)應(yīng)用約束條件。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

比如，給 o1 看一幅粗糙草圖，問(wèn)「這將繪制哪種分形？」——o1 答錯(cuò)了；而 o3 直接命中了「龍形曲線」。

雖然只是小測(cè)試，但結(jié)果令人驚喜，因?yàn)槲覀儾⑽刺峁┨嗑€索。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

?更優(yōu)成本效率

更令人意外的是，o3 的性?xún)r(jià)比也更高：在相同推理成本下，它交出了更好的成績(jī)。這或許得益于架構(gòu)級(jí)優(yōu)化，提高了 Token 吞吐量并降低了延遲。

自 Deepseek?R1 以 ChatGPT 僅幾分之一的成本取得高性能以來(lái)，成本一直是熱門(mén)話(huà)題，而 o3 的表現(xiàn)顯然再次推高了業(yè)界預(yù)期。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

o4?mini—— 小巧、敏銳，卻實(shí)力驚人

o4?mini 是 OpenAI o 系列推理模型的最新成員。

它針對(duì)速度、低成本以及工具增強(qiáng)推理能力進(jìn)行了優(yōu)化，提供 200 000 Token 的上下文窗口，并可輸出最多 100000 個(gè) Token，性能與 o3、o1 相當(dāng)。

在工具層面，o4?mini 兼容 Python 執(zhí)行、網(wǎng)頁(yè)瀏覽和圖像輸入，可接入 OpenAI 的標(biāo)準(zhǔn)接口（包括 Chat Completions 和 Responses）。支持流式輸出、函數(shù)調(diào)用及結(jié)構(gòu)化輸出，但暫不支持微調(diào)和嵌入（Embeddings）。

o4?mini 兼顧「量」和「質(zhì)」：面向普通用戶(hù)的每日消息上限達(dá) 150 條，而 o3 的上限是每周 50 條；在數(shù)學(xué)、編程和高視覺(jué)負(fù)載任務(wù)上，它以更快速度、極低成本，達(dá)到接近 o3 的性能。

雖然 o3 仍然是 OpenAI 最強(qiáng)的推理模型，但 o4?mini 可以使用十分之一不到的費(fèi)用獲得 o3 大部分的性能。

o4?mini 的優(yōu)勢(shì)

?體積雖小，威力十足

要分析海量數(shù)據(jù)，或匯總凌亂的研究表格？o4?mini 輕松應(yīng)對(duì) —— 篩選洞見(jiàn)、編寫(xiě)結(jié)構(gòu)化查詢(xún)語(yǔ)言（SQL）、檢索數(shù)據(jù)，并將結(jié)果繪制成可交互圖表。

o3 也許要十幾步推理、付出不菲的 token 成本，而 o4?mini 直截了當(dāng)，給你既簡(jiǎn)潔又合理的答案。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

?工具齊全，算力更省

o4?mini 提供與 o3 同級(jí)別的完整工具箱，包括 Python、網(wǎng)頁(yè)瀏覽、圖像分析與生成等。

生成分析報(bào)告時(shí)，它可以一次完成：拉取 CSV，用 Python 清洗并制圖，上網(wǎng)查找行業(yè)宏觀數(shù)據(jù)進(jìn)行對(duì)比，最后輸出 Markdown 報(bào)告；整個(gè)過(guò)程無(wú)需承擔(dān) o3 的計(jì)算開(kāi)銷(xiāo)。

o4?mini 與 o4?mini?high

打開(kāi) ChatGPT 應(yīng)用，你會(huì)發(fā)現(xiàn)有 o4?mini 和 o4?mini?high 兩種選擇。

顧名思義，o4?mini?high 就是通過(guò)更多推理算力的投入，來(lái)?yè)Q取更佳表現(xiàn)。

這意味著 o4?mini?high 相比于 o4?mini：

會(huì)在內(nèi)部花費(fèi)更多時(shí)間處理每個(gè)提示詞；
通常能生成更高質(zhì)量的輸出，尤其是多步任務(wù)；
但響應(yīng)速度更慢，且可能消耗更多 Token。

如果你更看重速度，o4?mini 或許更合適。若任務(wù)需要復(fù)雜推理（尤其涉及代碼或視覺(jué)輸入）、更長(zhǎng)上下文，或?qū)纫髽O高，那么 o4?mini?high 更有可能給出更好的結(jié)果。

實(shí)測(cè)表現(xiàn)

接下來(lái)，對(duì) o4?mini 分別在數(shù)學(xué)和編碼場(chǎng)景下進(jìn)行測(cè)試。

?數(shù)學(xué)

首先，給它一道看似簡(jiǎn)單、卻常常難住語(yǔ)言模型的計(jì)算題。

目的不是測(cè)它的基礎(chǔ)算術(shù)，而是想看看它會(huì)如何解題：一步步推理，還是調(diào)用像計(jì)算器這樣的工具。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

第一次回答錯(cuò)了。于是，直接提醒它要使用計(jì)算器。

第二次雖然算對(duì)了，但仍有兩個(gè)問(wèn)題：

它把答案稱(chēng)為「約等于」，可這道減法題根本不用任何估算。
從推理過(guò)程能看出它并未真正調(diào)用計(jì)算器，盡管輸出里寫(xiě)著「計(jì)算器顯示」，這與實(shí)際計(jì)算方式不符。更離譜的是，它還去搜了網(wǎng)頁(yè)，而這種基礎(chǔ)題完全無(wú)需聯(lián)網(wǎng)查詢(xún)。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

隨后又給了它一道更有挑戰(zhàn)性的數(shù)學(xué)題，這回表現(xiàn)就穩(wěn)多了。

模型反應(yīng)迅速，用一小段 Python 腳本就解出了答案，而且還能在思維鏈里直接看到代碼。能把代碼公開(kāi)為推理過(guò)程的一部分，確實(shí)相當(dāng)實(shí)用。

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

?生成 p5.js 游戲

在這個(gè)測(cè)試中，選用算力更高的 o4?mini?high。

提示詞：給我做一款引人入勝的無(wú)盡跑酷游戲。關(guān)鍵操作說(shuō)明顯示在屏幕上。p5.js 場(chǎng)景，不要 HTML。我喜歡像素風(fēng)恐龍和有趣的背景。

第一次生成的結(jié)果：

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

有些地方我想調(diào)整，于是再次進(jìn)行提示：

畫(huà)一只更像樣的恐龍 —— 那東西一點(diǎn)也不像恐龍。
讓玩家按下任意鍵再開(kāi)始游戲 —— 不要一啟動(dòng)就自動(dòng)開(kāi)始；同時(shí)確保所有操作說(shuō)明仍然顯示在屏幕上。
游戲結(jié)束后，讓玩家可以重新嘗試。

第二次生成的結(jié)果：

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

這次好多了，但這只「恐龍」看起來(lái)還是像一臺(tái)老式電影攝像機(jī)。

GPT?4.1—— 為精準(zhǔn)而生，不為「氛圍」服務(wù)

目前 GPT?4.1 只通過(guò) API 向開(kāi)發(fā)者開(kāi)放，目標(biāo)是以毫不妥協(xié)的精準(zhǔn)度執(zhí)行細(xì)致入微的指令。

它沒(méi)有 4.5 等前輩那種「夢(mèng)幻」氣質(zhì)，卻更加結(jié)構(gòu)化、可靠且一致?？梢园阉?dāng)作 OpenAI 面向特定開(kāi)發(fā)任務(wù)的高負(fù)荷「勞模」，而非發(fā)散創(chuàng)意的靈感源泉。

GPT?4.1 的優(yōu)勢(shì)

?遵循復(fù)雜指令

GPT?4.1 處理任務(wù)就像經(jīng)驗(yàn)老到的領(lǐng)航員。

比如你正在寫(xiě)一個(gè)食譜生成器，并且把所有的要求都寫(xiě)在了一個(gè)提示詞里 —— 以 Markdown 輸出、避開(kāi)特定話(huà)題、按指定順序列出烹飪步驟，并附上鈉含量等關(guān)鍵指標(biāo)。

舊版模型可能會(huì)漏掉步驟或亂了順序，而 4.1 會(huì)嚴(yán)格遵照你的路線，哪怕十分漫長(zhǎng)、全是彎彎繞繞。

這帶來(lái)了兩大好處：寫(xiě)提示詞的時(shí)間更短，處理模型輸出的時(shí)間也更短。

?記憶力驚人

上下文窗口從 128000 個(gè) token 擴(kuò)大到 1000000 個(gè) token，比 GPT?4o 足足多出了 8 倍。

你只需一次性設(shè)定語(yǔ)氣或結(jié)構(gòu)，它便能在多輪對(duì)話(huà)中持續(xù)遵循，無(wú)需每次從頭設(shè)置。

這讓很多實(shí)際場(chǎng)景變得可行：一次性處理完整日志、為代碼倉(cāng)庫(kù)建索引、順暢運(yùn)行多文檔法律流程，或分析長(zhǎng)篇內(nèi)容，全程無(wú)需分塊或摘要。

?結(jié)構(gòu)化輸出

GPT?4.1 就像自駕游里那個(gè)「只要路線明確就特別好相處」的朋友。給它清晰的行程表，它就執(zhí)行得又準(zhǔn)又快。

可如果拋給它「氛圍」式的提示詞，比如「能不能讓這個(gè)食譜 App 像走進(jìn)一家溫馨的地下酒吧？」，它可能立刻就想回家。

GPT?4.1、GPT-4.1 mini 和 GPT-4.1 nano

如果你想在編碼、指令遵循以及長(zhǎng)上下文任務(wù)上獲得最優(yōu)綜合表現(xiàn)，就選 GPT?4.1。它能勝任復(fù)雜的編碼工作流，也能在單條提示詞中處理大體量文檔。

GPT?4.1 mini 屬于中端選項(xiàng)，延遲和成本更低，卻幾乎具備與完整版相同的能力。在多項(xiàng)基準(zhǔn)（包括指令遵循和圖像推理）中，它能追平甚至超越 GPT?4o。

GPT?4.1 nano 是系列中體積最小、速度最快、成本最低的模型（0.1 美元 / 百萬(wàn) Token），面向自動(dòng)補(bǔ)全、分類(lèi)，以及從長(zhǎng)文檔中抽取信息等任務(wù)。雖然它的推理和規(guī)劃能力不如更大的模型，但對(duì)于某些任務(wù)來(lái)說(shuō)，這已經(jīng)足夠用了。

與完整版的 GPT?4.1 一樣，mini 和 nano 都支持 100 萬(wàn) Token 的上下文窗口。

對(duì)比競(jìng)品的表現(xiàn)

? GPT-4.1 vs Claude 3.7 Sonnet

根據(jù)測(cè)試，在代碼的優(yōu)雅度和結(jié)構(gòu)性方面，Claude 3.7 Sonnet 仍是首選，尤其體現(xiàn)在整體風(fēng)格一致性和用戶(hù)界面表現(xiàn)上。

不過(guò)，只要提示詞范圍清晰且具體，4.1 在執(zhí)行指令能力上已大幅拉近差距。

? o4?mini vs GPT?3.5

就目前觀察，o4?mini 正逐漸成為開(kāi)發(fā)者在有限預(yù)算下追求速度、可靠性與視覺(jué)處理能力時(shí)的「平價(jià)首選」。而 2022 年 11 月發(fā)布的 GPT?3.5，如今已經(jīng)顯得有些「過(guò)氣」了。

參考資料：

https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini
https://www.datacamp.com/blog/o4-mini
https://www.datacamp.com/blog/o3-openai
https://www.datacamp.com/blog/gpt-4-1

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

o3——OpenAI 最強(qiáng)推理模型

o3 的優(yōu)勢(shì)

o3 的技術(shù)創(chuàng)新

o4?mini—— 小巧、敏銳，卻實(shí)力驚人

o4?mini 的優(yōu)勢(shì)

o4?mini 與 o4?mini?high

實(shí)測(cè)表現(xiàn)

GPT?4.1—— 為精準(zhǔn)而生，不為「氛圍」服務(wù)

GPT?4.1 的優(yōu)勢(shì)

GPT?4.1、GPT-4.1 mini 和 GPT-4.1 nano

對(duì)比競(jìng)品的表現(xiàn)

? GPT-4.1 vs Claude 3.7 Sonnet

? o4?mini vs GPT?3.5

相關(guān)文章

選 AI 比選對(duì)象還難！“起名黑洞”O(jiān)penAI 的新模型，到底怎么選？

o4?mini—— 小巧、敏銳，卻實(shí)力驚人

GPT?4.1—— 為精準(zhǔn)而生，不為「氛圍」服務(wù)

GPT?4.1、GPT-4.1 mini 和 GPT-4.1 nano