設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI ChatGPT 上新 Deep Research:持續(xù)思考 30 分鐘輸出 1 萬字,刷榜“人類最后的考試”

量子位 2025/2/3 15:03:48 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 動感超人233 的線索投遞!

就在開源的 DeepSeek-R1 被整合進(jìn)各路 AI 搜索工具之際,OpenAI 臨時舉行小型發(fā)布會。4 點(diǎn) 27 通知,8 點(diǎn)開始直播。ChatGPT 上新“Deep Research”,把推理大模型的思考能力用于聯(lián)網(wǎng)搜索。

據(jù)介紹,Deep Research 功能可在數(shù)十分鐘完成人類專家需要幾個小時的復(fù)雜研究任務(wù)。

“人類最后的考試”上,Deep Research 刷新了最高分,比 o3-mini 高推理設(shè)置分?jǐn)?shù)高出一倍。

該測試包括 3000 多個多選和簡答題,涵蓋從語言學(xué)、火箭科學(xué)到生態(tài)學(xué)的 100 多個主題。

與 o1 相比,Deep Research 最突出的地方在化學(xué),人文和社會科學(xué)以及數(shù)學(xué)中,表現(xiàn)出類似人類的“在必要時尋找專業(yè)信息”的能力。

另一項(xiàng)測試 GAIA,在現(xiàn)實(shí)世界問題上評估 AI 的公開基準(zhǔn)測試,Deep Research 在 3 個級別的難度上均刷新記錄。

出于保護(hù)基準(zhǔn)測試的目的,OpenAI 只展示了 Deep Research 在完成這些任務(wù)時的搜索過程,隱去了最終答案。

Deep Research 功能接下來將對 Pro、Plus 和 Team 用戶開放。奧特曼后面補(bǔ)充,目前版本基于 o3 構(gòu)建,Plus 用戶(20 美元 / 月)每個月能用約 10 次,且正在構(gòu)建一個更高效的版本。此外,免費(fèi)用戶也能獲得非常少量的使用額度。

推理 Agent 的第一步

OpenAI 表示,Deep Research 專門為在金融 / 科學(xué) / 工程等領(lǐng)域從事高強(qiáng)度知識工作、需要深入精確且可靠研究的人群而設(shè)計(jì)。

它由 OpenAI o3 驅(qū)動,通過基于真實(shí)任務(wù)(涉及瀏覽器和 Python 工具的使用)的訓(xùn)練,采用了與 o1 相同的強(qiáng)化學(xué)習(xí)方法。

只需一個提示,它就會查找分析并整合數(shù)百個在線資源,生成一份達(dá)到研究分析師水平的綜合報(bào)告。

Deep Research 對于 OpenAI 的重要性,官方原話是:

Deep Research 標(biāo)志著我們在開發(fā) AGI 的宏偉目標(biāo)上邁出了重要一步。我們長期以來一直設(shè)想 AGI 能夠進(jìn)行新穎的科學(xué)研究,而 Deep Research 正是這一愿景的重要進(jìn)展。

使用方法,點(diǎn)擊輸入框下方的 Deep Research 按鈕即可,支持上傳文件添加額外資料。

例如 prompt:

Compile a research report on how the retail industry has changed in the past 3 years. Use bullets and tables where necessary for clarity.(寫一份關(guān)于過去三年零售業(yè)變化的研究報(bào)告,并運(yùn)用項(xiàng)目符號和表格來提升內(nèi)容的清晰度)

ChatGPT 線會確認(rèn)一下問題細(xì)節(jié)信息,比如“您能具體說明您最感興趣的零售業(yè)方面嗎?”“您需要全球視角還是特定地區(qū)的分析?”

然后,它就開始分析 + 挖掘信息了:

側(cè)邊欄會顯示所采取的步驟摘要和使用的信息來源。完成任務(wù)的時間大概是 5-30 分鐘,最終結(jié)果將以報(bào)告的形式輸出。

OpenAI 表示,接下來幾周內(nèi),還將為這些報(bào)告添加嵌入式圖片、數(shù)據(jù)可視化和其它分析輸出。

和 GPT-4o 等相比,Deep Research 對于需要深度和細(xì)節(jié)的多方面、特定領(lǐng)域的問題,能夠進(jìn)行廣泛探索并引用每個觀點(diǎn)。

不過,OpenAI 也指出了 Deep Research 存在的局限性。

它有時會在回復(fù)中產(chǎn)生事實(shí)幻覺或做出錯誤的推斷,盡管根據(jù)內(nèi)部評估,其錯誤率明顯低于現(xiàn)有的 ChatGPT 模型。

它可能在區(qū)分權(quán)威信息和謠言方面遇到困難,并且在自信度校準(zhǔn)方面目前表現(xiàn)出弱點(diǎn),常常無法準(zhǔn)確傳達(dá)不確定性。

報(bào)告和引用中可能會有輕微的格式錯誤,并且啟動任務(wù)可能需要更長的時間。

下一步,OpenAI 表示將在本月內(nèi)將 Deep Research 推到移動和桌面 App 端。目前,Deep Research 可以訪問公開網(wǎng)絡(luò)和上傳的文件,未來將能夠連接到更多專業(yè)化的數(shù)據(jù)源,使其輸出更加穩(wěn)健和個性化。

我們預(yù)見 ChatGPT 將實(shí)現(xiàn) Agent 體驗(yàn)的融合,用于異步、現(xiàn)實(shí)世界的研發(fā)和執(zhí)行。Deep Research(可進(jìn)行異步在線調(diào)查)與 Operator(可進(jìn)行現(xiàn)實(shí)行動)的結(jié)合,使 ChatGPT 能夠執(zhí)行越來越復(fù)雜的任務(wù)。

AI 深度搜索是互聯(lián)網(wǎng)的新界面

OpenAI 研究員 Jason Wei 分享了他對這項(xiàng)新研究的看法:

它不僅是出色的 Agent,也可以看成是互聯(lián)網(wǎng)的新界面

人類使用互聯(lián)網(wǎng)需要大量時間來搜索和點(diǎn)擊,受到時間和注意力的限制。AI 永遠(yuǎn)不會累,一次可以瀏覽許多網(wǎng)站,并擁有幾乎無限的世界知識。

將來,通過瀏覽器手動瀏覽互聯(lián)網(wǎng)將過時,就像手動計(jì)算數(shù)字而不使用計(jì)算器一樣。

OpenAI toG 業(yè)務(wù)負(fù)責(zé)人 Felipe Millon 則分享了一個個人故事。

10 月底,Millon 的妻子被診斷出患有雙側(cè)乳腺癌,病情很嚴(yán)重,在 12 月初做了雙乳房切除手術(shù),晚些時候開始化療。

他們遇到一個新問題,是否應(yīng)該接受放療,對于她的具體病情來說,這是一個模糊問題,不同的專家給出不同的建議。

Millon 在 OpenAI 已經(jīng)獲得了 Deep Research 的測試權(quán)限,就嘗試上傳了手術(shù)報(bào)告,并詢問 ChatGPT 的建議。

ChatGPT 不僅證實(shí)了人類專家提到的內(nèi)容,還搜索出了全新的參考研究。MIllon 認(rèn)為,這是一個將改變世界的工具。

此外也有少數(shù)第三方團(tuán)隊(duì)提前獲得了 Deep Research 的測試資格,并在今日分享測試結(jié)果。Every 團(tuán)隊(duì)介紹,一些問題要花費(fèi) 30 分鐘才得到結(jié)果,答案可能超過 1 萬個單詞。

他們做的測試包括:

  • 撰寫從 2020 年到今天每一天的歷史

  • 閱讀《戰(zhàn)爭與和平》的第 1 章,分析托爾斯泰的人物描寫,回答他對人性的看法是什么?

  • 仔細(xì)查閱近期的 10-K 報(bào)告以發(fā)現(xiàn)未報(bào)告的財(cái)務(wù)違規(guī)行為

    ……

測試中發(fā)現(xiàn)的局限性包括:

  • 有時信息缺失引用來源

  • 沒有“停止”按鈕,如果搜索歪了只能重頭開始

直播回看:

https://www.youtube.com/watch?v=YkCDVn3_wiw

參考鏈接:

  • [1]https://openai.com/index/introducing-deep-research/

  • [2]https://x.com/_jasonwei/status/1886213911906504950

  • [3]https://x.com/danshipper/status/1886203397004783996

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨西風(fēng)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,人工智能,ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知