今天發(fā)布的 Operator 無(wú)疑是 AI 圈最大的亮點(diǎn),本文為大家?guī)?lái)了關(guān)于 Operator 的全面評(píng)測(cè)。這款 AI 智能體能夠自動(dòng)處理一系列任務(wù),像是演唱會(huì)購(gòu)票、家政服務(wù)預(yù)訂、AI 新聞查找等。
演唱會(huì)搶票終于不用自己蹲守了,公司訂餐也可以直接「無(wú)腦托管」,這就是 OpenAI 今天發(fā)布的 Operator。
顧名思義,Operator 就是能幫你端到端處理任務(wù)的 AI 智能體。
比較有趣的是,OpenAI 針對(duì) Operator 新開(kāi)了一個(gè)網(wǎng)頁(yè) operator.chatgpt.com,而不是像之前發(fā)布的功能都直接統(tǒng)一內(nèi)置在 ChatGPT 中。
Operator 的頁(yè)面與 ChatGPT 大致相似,只是輸入框的提示詞從「我能幫您什么嗎?」變?yōu)榱恕肝夷軒湍鍪裁磫幔俊?/p>
顯然 Operator 多了個(gè)「做」字,而就是這一字之差,便已揭示了兩者的本質(zhì)性區(qū)別。
Operator 深度測(cè)評(píng)
這里展示了一些 Operator 在 OpenAI 的合作伙伴網(wǎng)站上能為您執(zhí)行的推薦任務(wù)。比如,不用半小時(shí)就能用雞肉做好的晚餐食譜。
當(dāng)前,Operator 的功能還比較有限,但我們相信它會(huì)快速優(yōu)化。不妨想想,你每天在電腦上做的那些重復(fù)任務(wù),說(shuō)不定一年之后,大部分都不用你親自動(dòng)手了。
先來(lái)看看 Operator 能做哪些事情,并且到底做得怎么樣吧!
購(gòu)票
提示:幫我找兩張 Jamie XX 在洛杉磯舉行的下一場(chǎng)演出的門票。
結(jié)果:
- 調(diào)用指定合作伙伴 Stubhub,成功獲取相關(guān)門票。
- 未選定合作伙伴時(shí),因無(wú)法瀏覽被阻止的網(wǎng)站,未成功。
提示:找出 Jamie xx 的演出安排以及每場(chǎng)演出的門票價(jià)格。
結(jié)果:
- 調(diào)用指定合作伙伴 Stubhub,失敗。過(guò)程中出現(xiàn)虛假信息,在多次提示后,最終取得成功。
AI 新聞
提示:AI 領(lǐng)域的最新消息是什么?
結(jié)果:
- 調(diào)用指定合作伙伴 Axios,表現(xiàn)尚可,返回了一篇簡(jiǎn)短的新聞?wù)?/p>
預(yù)訂 Uber
提示:現(xiàn)在從這里到機(jī)場(chǎng)的 UberX 多少錢?
結(jié)果:
- 使用指定合作伙伴 Uber,操作成功。
- Operator 提出合理的問(wèn)題,詢問(wèn)「請(qǐng)?zhí)峁┙涌偷攸c(diǎn),以便我為您查找從接客地點(diǎn)到機(jī)場(chǎng)的 UberX 費(fèi)用。」以及「請(qǐng)指定您的目的地機(jī)場(chǎng)。」
- 登錄后,Operator 給出答案:「從南加州大學(xué)到洛杉磯國(guó)際機(jī)場(chǎng)的 UberX 當(dāng)前票價(jià)為 43.47 美元。您是否希望預(yù)訂此行程?」
房屋清潔
提示:我需要一名家政清潔員明天來(lái)我家做一次性清潔。
結(jié)果:
- 調(diào)用指定合作伙伴 Thumbtack,失敗。
- 未詢問(wèn)我的具體位置,就推薦了一名位于弗吉尼亞的清潔員,可能是因?yàn)闉g覽器所在的數(shù)據(jù)中心位于該地。
Spotify Wrapped
提示:我想了解 Spotify Wrapped 成功的原因。(Spotify Wrapped 是音樂(lè)流媒體平臺(tái) Spotify 推出的年度回顧功能。)
結(jié)果:
- 采用簡(jiǎn)單提示時(shí),失敗。系統(tǒng)卡在循環(huán)中,表現(xiàn)不佳,且研究資料有限。
- 采用復(fù)雜提示時(shí),結(jié)果尚可。需要多次提示,報(bào)告質(zhì)量不高。在提供了如何進(jìn)行高級(jí)搜索的提示后完成了任務(wù)。期間 3 次請(qǐng)求獲取 2024 年的信息均被拒絕。
看完上述演示,也自然引發(fā)了一個(gè)問(wèn)題:
「我們能夠隨時(shí)介入 Operator 的操作并做出符合自己偏好的更改嗎?」
答案是:完全可以!
事實(shí)上,在任何時(shí)候,你都可以控制其遠(yuǎn)程瀏覽器并引導(dǎo)操作,比如輸入用戶名和密碼。并且如果你給出自己要求后,它還會(huì)保存重要的賬戶信息,這樣,只要你登錄一次,它就能在你的賬戶內(nèi)自行操作,而無(wú)需再次打擾你。
最后,Operator 將在結(jié)賬頁(yè)面停止繼續(xù)操作,返回支付請(qǐng)求后,再獲取您的付款詳情:
目前 Operator 支持自動(dòng)完成通常需要 15-20 分鐘內(nèi)的網(wǎng)絡(luò)任務(wù)。
值得一提的是,Operator 還擁有能夠極大提高用戶體驗(yàn)的「保存和共享功能」。也就是說(shuō),一旦完成任務(wù),Operator 就可以輕松保存工作流程。比如持續(xù)用最新的銷售數(shù)據(jù)來(lái)更新相應(yīng)的報(bào)表。它甚至提供了一個(gè)流暢的會(huì)話記錄視頻,支持用戶觀看并與其他人分享。
換句話說(shuō),Operator 就像是一個(gè)可以不斷和你磨合,且可以持續(xù)進(jìn)步,還能 24 小時(shí)不停按照既定流程為你工作的私人管家一樣。
但是,由于 Operator 才剛剛發(fā)布,所以還是有一定的缺陷。
Operator 的缺陷
正如道德經(jīng)所說(shuō),「有無(wú)相生,難易相成」。Operator 自身的缺陷亦是源于它的優(yōu)勢(shì)本身。
它的獨(dú)特之處在于不用使用用戶本地的瀏覽器執(zhí)行操作,而是 OpenAI 數(shù)據(jù)中心之一的一個(gè)瀏覽器,用戶可以遠(yuǎn)程觀看并與之互動(dòng)。這種設(shè)計(jì)的優(yōu)點(diǎn)是你可以在任何地方、任何時(shí)候使用它 —— 例如,在任意移動(dòng)設(shè)備上。
但缺點(diǎn)是許多像 Reddit 這樣的網(wǎng)站已經(jīng)阻止 AI 智能體瀏覽,因此它們無(wú)法被 Operator 訪問(wèn)。并且 Operator 也因性能或法律原因被 OpenAI 阻止訪問(wèn)某些資源密集型網(wǎng)站,如 Figma 或 YouTube。
簡(jiǎn)單來(lái)講,目前的 Operator 就像是被隔離在玻璃門外的人一樣,對(duì)于許多東西都是「看得見(jiàn)卻摸不著」。
像是一個(gè)外包乙方,而不是研究助理
目前的 Operator 實(shí)際上更像是一個(gè)能夠完成你給外包出去業(yè)務(wù)的乙方,而不是一個(gè)足夠聰明的個(gè)人研究助理。
例如,可以讓 Operator 閱讀《戰(zhàn)爭(zhēng)與和平》的第一章,并總結(jié)每個(gè)角色的所有細(xì)節(jié)以及他們所展現(xiàn)的人類心理和行為。然后,Operator 在 Project Gutenberg 網(wǎng)站上找到了《戰(zhàn)爭(zhēng)與和平》并閱讀了第一章,做得非常出色。
但是其摘要卻枯燥乏味且粗糙寬泛:
在上述摘要中,它做出了正確的觀察:「角色意識(shí)到他們的社會(huì)地位,有些人,比如安娜?帕夫洛夫娜,小心翼翼地互動(dòng)以保持禮儀」。但是這個(gè)摘要也有一種 SparkNotes 的味道,也就是不夠詳細(xì),還無(wú)法真正理解故事情節(jié)。
如果提供相同的信息,OpenAI 的 o1 在這項(xiàng)任務(wù)上會(huì)做得更好 —— 但是 o1 還沒(méi)有自主執(zhí)行任務(wù)的能力。也就是說(shuō),OpenAI 專注于讓 Operator 非常適合自動(dòng)執(zhí)行重復(fù)性工作流程,而不太關(guān)注其智能水平。
它確實(shí)自主,但提示很重要
關(guān)于 Operator,最令人印象深刻的一點(diǎn)是,它只需極少的提示就能獨(dú)自完成冗長(zhǎng)的任務(wù)。例如,我們讓它執(zhí)行一項(xiàng)耗時(shí) 20 多分鐘的任務(wù):我們請(qǐng)它幫我們了解 Spotify 年度總結(jié)(Spotify Wrapped)功能這些年是如何演變的。
「它最初是什么樣的?」
「現(xiàn)在又新增了哪些內(nèi)容?」
它時(shí)不時(shí)需要一些提示才能繼續(xù)推進(jìn)任務(wù),但最終也成功實(shí)現(xiàn)了任務(wù)目標(biāo)。
不可置否的是,與 12 個(gè)月甚至 6 個(gè)月前的智能體相比,這是一個(gè)重大進(jìn)步,畢竟那時(shí)的智能體往往在短短幾秒鐘后就會(huì)偏離正軌。
話雖如此,用戶對(duì) Operator 的提示方式仍然很關(guān)鍵。如果你向它提供更多關(guān)于如何完成任務(wù)的細(xì)節(jié),它成功完成你交給它的任務(wù)的幾率就會(huì)更高。
例如,在我們關(guān)于 Spotify 年度總結(jié)的例子中,我們要求它收集并總結(jié)不同年份的搜索結(jié)果數(shù)據(jù)。它一開(kāi)始失敗了,因?yàn)樗恢廊绾伟茨攴莺Y選搜索數(shù)據(jù)。但當(dāng)我們告訴它使用谷歌的高級(jí)搜索工具(該工具提供逐年篩選搜索功能)時(shí),它就成功完成了任務(wù)。
OpenAI:一切以消費(fèi)者為中心
當(dāng)前,Operator 僅是一個(gè)研究預(yù)覽,而非成熟產(chǎn)品。但這個(gè)預(yù)覽版意義重大,要知道就連 ChatGPT 最初也是以研究預(yù)覽的形式問(wèn)世的。
OpenAI 正重拾曾經(jīng)大獲成功的策略:即使產(chǎn)品還有很多不完善的地方,也要盡早發(fā)布,并持續(xù)頻繁迭代。
因此 OpenAI 不僅推出 API,還發(fā)布了面向消費(fèi)者的產(chǎn)品。
這一舉措與競(jìng)爭(zhēng)對(duì)手 Anthropic 的做法有所不同。Anthropic 雖然也有一款自主智能體 Claude Computer use,但其僅以 API 的形式發(fā)布,因此應(yīng)用范圍相當(dāng)有限。
OpenAI 從 ChatGPT 中學(xué)到一點(diǎn),AI 的發(fā)布形式對(duì)其推廣的影響,絲毫不亞于底層技術(shù)。
因此,他們將首款自主智能體產(chǎn)品,以面向消費(fèi)者的方式發(fā)布,即使這個(gè)產(chǎn)品還存在不少缺陷。
總的來(lái)說(shuō),盡管 Operator 目前功能有限,但可以預(yù)計(jì)它會(huì)迅速改進(jìn)。對(duì)于廣大用戶來(lái)講,現(xiàn)在是時(shí)候梳理一下你每天在電腦上做的重復(fù)性任務(wù)了,也許一年后你就無(wú)需再做其中的大部分工作。
參考資料:
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
本文來(lái)自微信公眾號(hào):新智元(ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。