AI“推理”模型興起，基準(zhǔn)測(cè)試成本飆升

2025/4/13 10:05:25 來(lái)源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 4 月 13 日消息，隨著人工智能（AI）技術(shù)的不斷發(fā)展，所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類(lèi)一樣逐步思考問(wèn)題，在特定領(lǐng)域，如物理學(xué)中，被認(rèn)為比非推理模型能力更強(qiáng)。然而，這種優(yōu)勢(shì)卻伴隨著高昂的測(cè)試成本，使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

據(jù)第三方 AI 測(cè)試機(jī)構(gòu)“人工智能分析”（Artificial Analysis）提供的數(shù)據(jù)顯示，評(píng)估 OpenAI 的 o1 推理模型在七個(gè)流行的 AI 基準(zhǔn)測(cè)試（包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500）中的表現(xiàn)，需要花費(fèi) 2767.05 美元（IT之家注：現(xiàn)匯率約合 20191 元人民幣）。而評(píng)估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元（現(xiàn)匯率約合 10839 元人民幣），相比之下，測(cè)試 OpenAI 的 o3-mini-high 則只需 344.59 美元（現(xiàn)匯率約合 2514 元人民幣）。盡管有些推理模型的測(cè)試成本相對(duì)較低，例如評(píng)估 OpenAI 的 o1-mini 只需 141.22 美元（現(xiàn)匯率約合 1030 元人民幣），但從整體來(lái)看，推理模型的測(cè)試成本仍然比較高昂。截至目前，“人工智能分析”已經(jīng)花費(fèi)了約 5200 美元（現(xiàn)匯率約合 37945 元人民幣）來(lái)評(píng)估大約十幾種推理模型，這一金額接近該公司分析超過(guò) 80 種非推理模型所花費(fèi)的 2400 美元的兩倍。

OpenAI 在 2024 年 5 月發(fā)布的非推理 GPT-4o 模型，其評(píng)估成本僅為 108.85 美元，而 Claude 3.6 Sonnet（Claude 3.7 Sonnet 的非推理前身）的評(píng)估成本為 81.41 美元?！叭斯ぶ悄芊治觥甭?lián)合創(chuàng)始人喬治?卡梅倫（George Cameron）向 TechCrunch 表示，隨著越來(lái)越多的 AI 實(shí)驗(yàn)室開(kāi)發(fā)推理模型，該組織計(jì)劃增加其測(cè)試預(yù)算?！霸凇斯ぶ悄芊治觥覀兠吭逻M(jìn)行數(shù)百次評(píng)估，并為此投入了相當(dāng)可觀的預(yù)算，”卡梅倫說(shuō)，“我們預(yù)計(jì)隨著模型的頻繁發(fā)布，這一支出將會(huì)增加?！?/p>

“人工智能分析”并非唯一面臨 AI 測(cè)試成本上升的機(jī)構(gòu)。AI 初創(chuàng)公司“通用推理”（General Reasoning）的首席執(zhí)行官羅斯?泰勒（Ross Taylor）表示，他最近花費(fèi)了 580 美元用大約 3700 個(gè)獨(dú)特的提示詞評(píng)估了 Claude 3.7 Sonnet。泰勒估計(jì)，僅對(duì) MMLU Pro（一套旨在評(píng)估模型語(yǔ)言理解能力的問(wèn)題集）進(jìn)行一次完整的測(cè)試，成本就會(huì)超過(guò) 1800 美元?！拔覀冋谶~向一個(gè)世界，在這個(gè)世界里，一個(gè)實(shí)驗(yàn)室在一項(xiàng)基準(zhǔn)測(cè)試中報(bào)告 x% 的結(jié)果，而他們?cè)谄渲谢ㄙM(fèi)了 y 數(shù)量的計(jì)算資源，但學(xué)者們的資源遠(yuǎn)遠(yuǎn)小于 y，”泰勒在 X 上最近的一篇帖子中寫(xiě)道，“沒(méi)有人能夠復(fù)制這些結(jié)果?！?/p>

那么，為什么推理模型的測(cè)試成本如此之高呢？主要原因在于它們生成了大量的 token。token 代表原始文本的片段，例如將單詞“fantastic”拆分為音節(jié)“fan”、“tas”和“tic”。據(jù)“人工智能分析”稱(chēng)，在該公司的基準(zhǔn)測(cè)試中，OpenAI 的 o1 生成了超過(guò) 4400 萬(wàn)個(gè) token，大約是 GPT-4o 生成量的八倍。大多數(shù) AI 公司都是按 token 收費(fèi)的，因此成本很容易就會(huì)累積起來(lái)。

此外，現(xiàn)代基準(zhǔn)測(cè)試通常會(huì)從模型中引出大量 token，因?yàn)樗鼈儼婕皬?fù)雜、多步驟任務(wù)的問(wèn)題。Epoch AI 的高級(jí)研究員讓-斯坦尼斯拉斯?德內(nèi)恩（Jean-Stanislas Denain）表示，這是因?yàn)榻裉斓幕鶞?zhǔn)測(cè)試更加復(fù)雜，盡管每個(gè)基準(zhǔn)測(cè)試的問(wèn)題數(shù)量總體有所減少?！八鼈兺ǔＴ噲D評(píng)估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力，例如編寫(xiě)和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)以及使用計(jì)算機(jī)，”德內(nèi)恩稱(chēng)。德內(nèi)恩還指出，最昂貴的模型隨著時(shí)間的推移，每個(gè) token 的成本也在增加。例如，Anthropic 在 2024 年 5 月發(fā)布的 Claude 3 Opus 是當(dāng)時(shí)最昂貴的模型，每百萬(wàn)輸出 token 的成本為 75 美元。而 OpenAI 今年早些時(shí)候推出的 GPT-4.5 和 o1-pro，每百萬(wàn)輸出 token 的成本分別為 150 美元和 600 美元。

“盡管隨著時(shí)間的推移，模型的性能有所提高，達(dá)到給定性能水平的成本也確實(shí)大幅下降，但如果你想在任何特定時(shí)間評(píng)估最大最好的模型，你仍然需要支付更多，”德內(nèi)恩說(shuō)。許多 AI 實(shí)驗(yàn)室，包括 OpenAI，為測(cè)試目的向基準(zhǔn)測(cè)試組織提供免費(fèi)或補(bǔ)貼的模型訪問(wèn)權(quán)限。但一些專(zhuān)家表示，這會(huì)影響測(cè)試結(jié)果的公正性 —— 即使沒(méi)有操縱的證據(jù)，AI 實(shí)驗(yàn)室的參與本身就可能損害評(píng)估評(píng)分的完整性。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI“推理”模型興起，基準(zhǔn)測(cè)試成本飆升

相關(guān)文章