頂級(jí) AI 智能體不會(huì)社交、創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)：卡內(nèi)基梅隆大學(xué)等稱(chēng)其最多完成 24% 任務(wù)

新智元 2025/1/26 16:38:09 責(zé)編：清源

評(píng)論：

智能體究竟能否應(yīng)對(duì)現(xiàn)實(shí)世界的復(fù)雜性？The Agent Company 近日提出了一項(xiàng)評(píng)估基準(zhǔn)，讓多個(gè)智能體嘗試自主運(yùn)營(yíng)一個(gè)軟件公司。結(jié)果表明，即使是當(dāng)前最先進(jìn)的智能體，也無(wú)法自主完成大多數(shù)任務(wù)。

如今，基于大模型的智能體，已經(jīng)能完成許多在幾年前還無(wú)法想象的任務(wù)，進(jìn)步的速度是如此之快，以至于有些人甚至聲稱(chēng)，在接下來(lái)的幾年內(nèi)，大多數(shù)人類(lèi)勞動(dòng)可能都可以實(shí)現(xiàn)自動(dòng)化。

然而近日 CMU、杜克大學(xué)等機(jī)構(gòu)發(fā)表的一項(xiàng)研究卻給這一期待潑了一盆涼水。

智能體運(yùn)營(yíng)公司還不可行

頂級(jí) AI 智能體不會(huì)社交、創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)：卡內(nèi)基梅隆大學(xué)等稱(chēng)其最多完成 24% 任務(wù)

論文鏈接：https://arxiv.org/abs/2412.14161

該研究開(kāi)發(fā)了一個(gè)全部由大模型驅(qū)動(dòng)的智能體組成的虛擬軟件開(kāi)發(fā)公司 The Agent Company，與人類(lèi)員工類(lèi)似，智能體需要執(zhí)行軟件開(kāi)發(fā)、項(xiàng)目管理、財(cái)務(wù)分析等典型的商業(yè)環(huán)境中的任務(wù)。

頂級(jí) AI 智能體不會(huì)社交、創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)：卡內(nèi)基梅隆大學(xué)等稱(chēng)其最多完成 24% 任務(wù)

智能體與環(huán)境互動(dòng)，以及智能體間的協(xié)作以完成真實(shí)世界任務(wù)

智能體所用的環(huán)境完全基于開(kāi)源軟件及主流的大模型接口，并可自行托管以實(shí)現(xiàn)可復(fù)現(xiàn)性。為了完成這些任務(wù)，智能體需要瀏覽網(wǎng)頁(yè)、編寫(xiě)代碼，并與其他智能體同事互動(dòng)。

智能體之間的交互模式也和真實(shí)世界的軟件公司十分類(lèi)似，比如使用 RocketChat 向公司的其它成員發(fā)送消息，并獲取原始任務(wù)描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責(zé)和項(xiàng)目隸屬關(guān)系等身份信息。

這項(xiàng)研究評(píng)估了當(dāng)前幾種主流的大模型，包括 Claude Sonnet 3.5、GPT-4o、Google 的 Gemini、Amazon 的 Nova，以及知名開(kāi)源模型，包括 Meta 的 Llama 和 Qwen2.5。

除了創(chuàng)建 175 個(gè)多樣化、真實(shí)、專(zhuān)業(yè)，且與真實(shí)公司運(yùn)營(yíng)模式一致的任務(wù)，這項(xiàng)研究還創(chuàng)建了不同任務(wù)對(duì)應(yīng)的評(píng)估器，在每個(gè)任務(wù)中的多個(gè)階段設(shè)置檢查點(diǎn)。智能體每完成一步任務(wù)，都會(huì)獲得相應(yīng)的積分（類(lèi)似于現(xiàn)實(shí)員工的 KPI）；而當(dāng)智能體只是部分正確地給出回答時(shí)，也會(huì)給予其部分過(guò)程分。

頂級(jí) AI 智能體不會(huì)社交、創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)：卡內(nèi)基梅隆大學(xué)等稱(chēng)其最多完成 24% 任務(wù)

結(jié)果顯示，表現(xiàn)最好的是基于 Claude Sonnet 3.5 的智能體，然而它只能應(yīng)對(duì)真實(shí)世界中 24% 的任務(wù)，在過(guò)程分上取得 34.4% 的得分。

排名第二的模型的任務(wù)完成比例更是只有 11.4%，這與人們對(duì)大模型取代人類(lèi)員工的預(yù)期還相距甚遠(yuǎn)。

頂級(jí) AI 智能體不會(huì)社交、創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)：卡內(nèi)基梅隆大學(xué)等稱(chēng)其最多完成 24% 任務(wù)

這個(gè)成績(jī)單中值得關(guān)注的是，開(kāi)源模型 Llama3.1 和閉源的 GPT-4o 排名相近，這表明了開(kāi)源模型在性能上已經(jīng)十分逼近商用的閉源模型。

運(yùn)營(yíng)公司，AI 比人類(lèi)差在哪里

這項(xiàng)研究中有趣的一點(diǎn)是，可以讓我們看到智能體在無(wú)法完成任務(wù)時(shí)犯下的錯(cuò)誤，而這些錯(cuò)誤在人類(lèi)身上是幾乎不會(huì)發(fā)生的。如果能得到解決，將有助于提升智能體在真實(shí)世界中的應(yīng)用落地。

問(wèn)題 1：缺乏常識(shí)

某些任務(wù)失敗是因?yàn)?，智能體缺乏進(jìn)行隱含假設(shè)推理所需的常識(shí)和領(lǐng)域背景知識(shí)。

例如，一個(gè)任務(wù)要求智能體「將響應(yīng)寫(xiě)入 / workspace / answer.docx」，但沒(méi)有明確指出這是一個(gè) Word 文件。人類(lèi)可以從文件擴(kuò)展名推斷出這一要求，而智能體卻將其視為純文本文件，直接內(nèi)容以文本形式寫(xiě)入，導(dǎo)致任務(wù)失敗。

問(wèn)題 2：缺乏社交技巧

一項(xiàng)任務(wù)需要智能體向其它智能體尋求幫助，智能體首先成功提出了正確的問(wèn)題：「你能告訴我，應(yīng)該接下來(lái)向團(tuán)隊(duì)中的誰(shuí)請(qǐng)教這個(gè)問(wèn)題嗎？」然后模擬同事 Alex 回答：「你應(yīng)該向 Bob 請(qǐng)教。他在前端團(tuán)隊(duì)，是一個(gè)很好的聯(lián)系人！」

之后若是人類(lèi)，99.9% 的人都會(huì)選擇去咨詢(xún) Bob 相關(guān)問(wèn)題，但智能體卻認(rèn)為任務(wù)已經(jīng)結(jié)束，不去向 Bob 請(qǐng)教。

問(wèn)題 3：瀏覽網(wǎng)頁(yè)容易出錯(cuò)

很多時(shí)候，任務(wù)中的最大障礙在于需要瀏覽網(wǎng)頁(yè)的部分。這方面的障礙是預(yù)料之中的，因?yàn)閷?duì)于智能體來(lái)說(shuō)，由于當(dāng)前網(wǎng)頁(yè)用戶(hù)界面的復(fù)雜性和網(wǎng)頁(yè)上的眾多干擾，瀏覽網(wǎng)頁(yè)仍然很困難。

例如，許多網(wǎng)頁(yè)都會(huì)不時(shí)彈出可關(guān)閉的廣告窗口，要求用戶(hù)下載手機(jī)應(yīng)用程序以獲得更好的體驗(yàn)。人類(lèi)可以簡(jiǎn)單地點(diǎn)擊「×」來(lái)關(guān)閉彈窗，而智能體則陷入了困境。

同樣，當(dāng)智能體嘗試從網(wǎng)絡(luò)中下載文件時(shí)，需要點(diǎn)擊多個(gè)彈出窗口才能進(jìn)行實(shí)際下載，但由于用戶(hù)界面復(fù)雜，每個(gè)步驟都容易出錯(cuò)。

問(wèn)題 4：自欺欺人

對(duì)于某些任務(wù)，當(dāng)智能體不清楚下一步應(yīng)該做什么時(shí)，它有時(shí)會(huì)試圖聰明一點(diǎn)，創(chuàng)建一些省略任務(wù)困難部分的「捷徑」。

例如，如果智能體在 RocketChat 上找不到合適的人提問(wèn)，它就會(huì)決定給另一個(gè)用戶(hù)改名為目標(biāo)用戶(hù)來(lái)當(dāng)做解決方案。

未來(lái)的智能體還有希望嗎

該研究的另一價(jià)值在于提供了一套框架，用來(lái)評(píng)估智能體在真實(shí)環(huán)境中的表現(xiàn)。

隨著向大模型灌輸網(wǎng)頁(yè)相關(guān)的信息，并教會(huì)大模型如何瀏覽網(wǎng)頁(yè)獲取信息，下載文件并不是難事，其他的辦公、工作交流等相關(guān)常識(shí)也是如此。相信未來(lái)大模型將有潛力取代人類(lèi)的人力、財(cái)務(wù)、程序員等職業(yè)，至少是將這些崗位的大部分任務(wù)進(jìn)行自動(dòng)化處理。

與此相應(yīng)的是，未來(lái)對(duì)大模型的評(píng)價(jià)也會(huì)有更多的維度。不止是完成該文列出的常規(guī)任務(wù)，還應(yīng)該對(duì)創(chuàng)造能力進(jìn)行考核。

此外，考核還應(yīng)該包含那些定義模糊的任務(wù)，以及更高層次、更長(zhǎng)遠(yuǎn)的任務(wù)，如構(gòu)思新產(chǎn)品并將其付諸實(shí)施。智能體只有能夠完成這些任務(wù)，才能算是真正地取代人類(lèi)員工運(yùn)營(yíng)公司。

參考資料：

https://arxiv.org/pdf/2412.14161

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

頂級(jí) AI 智能體不會(huì)社交、創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)：卡內(nèi)基梅隆大學(xué)等稱(chēng)其最多完成 24% 任務(wù)

智能體運(yùn)營(yíng)公司還不可行

運(yùn)營(yíng)公司，AI 比人類(lèi)差在哪里

問(wèn)題 1：缺乏常識(shí)

問(wèn)題 2：缺乏社交技巧

問(wèn)題 3：瀏覽網(wǎng)頁(yè)容易出錯(cuò)

問(wèn)題 4：自欺欺人

未來(lái)的智能體還有希望嗎

相關(guān)文章

運(yùn)營(yíng)公司，AI 比人類(lèi)差在哪里