【新智元導(dǎo)讀】Devin 到底是一個(gè)漂亮的 Demo,還是一個(gè)已經(jīng)能替代程序員的智能體,使用體驗(yàn)怎么樣,拿到測試資格的網(wǎng)友第一時(shí)間分享了自己的體驗(yàn)。
由 10 枚 IOI 金牌在手的創(chuàng)業(yè)團(tuán)隊(duì) Cognition AI 開發(fā)的全球首個(gè) AI 程序員智能體 Devin,一發(fā)布就讓科技圈坐立不安。
在演示中,Devin 幾乎已經(jīng)可以獨(dú)立完成很多人類程序員需要大量時(shí)間才能完成的工作,效果一點(diǎn)不比普通程序員差。
但是,產(chǎn)品能力的邊界在哪里,實(shí)際體驗(yàn)和演示時(shí)候有差距,還得看上手實(shí)測之后的效果。
這位斯坦福的小哥在 Devin 發(fā)布的第一時(shí)間就聯(lián)系了團(tuán)隊(duì),獲得了第一手體驗(yàn)的資格。
他讓 Devin 幫它做了幾個(gè)難度不一的項(xiàng)目,錄制了一個(gè)視頻,在推上寫下了自己的使用感受。
首先是讓 Devin 做一個(gè)用 API 獲取股票價(jià)格的軟件:
下一個(gè)任務(wù)是讓 Devin 做一個(gè)可以讓普通用戶直接與大模型下棋的網(wǎng)站。
需求復(fù)雜的編程任務(wù)還搞不定
用戶下一步棋,系統(tǒng)會(huì)翻譯成提示詞給 GPT-4,然后 GPT-4 進(jìn)行回復(fù),然后回復(fù)再被轉(zhuǎn)換為反映在棋盤上的具體某一步棋。
按照小哥的要求,系統(tǒng)需要由相當(dāng)多的部件組成。
他個(gè)人最為關(guān)注在這個(gè)系統(tǒng)的開發(fā)過程中,Devin 能不能做到以下幾點(diǎn):
知道如何準(zhǔn)確地使用 GPT-4 API,因?yàn)榇蠖鄶?shù) LLM 實(shí)際上并不知道如何使用,并且 API 的調(diào)用存在版本沖突。
正確地請(qǐng)求 API 密鑰并安全地處理。
處理包錯(cuò)誤。
了解如何提示 LLM 下棋并能精確地返回提示詞。
令小哥想不到的是,Devin 不僅要求小哥提供 API 密鑰,而且在試用過程中還可以正確地保護(hù)它。
不過,Devin 目前反饋速度還相當(dāng)慢,小哥推測是因?yàn)楹笈_(tái)發(fā)生的代理提示遠(yuǎn)遠(yuǎn)比要看到的要多得多。
從小哥發(fā)起請(qǐng)求開始,它花了大約 19 分鐘才詢問 API 密鑰。
小哥猜測,如果延遲是由于他們?cè)诤笈_(tái)運(yùn)行大量提示造成的,那么延遲應(yīng)該會(huì)隨著時(shí)間的推移而加快。
因?yàn)樗麄円院罂梢栽L問專用 GPU 或與 Claude 或 OpenAI 合作降低延遲(估計(jì)是 GPT-4 或 Claude Opus)。
Devin 首先制定了一個(gè)規(guī)劃。
在右上角,用戶可以切換「跟隨」?fàn)顟B(tài),這樣用戶可以將屏幕自動(dòng)移動(dòng)到#Devin 當(dāng)前激活了的選項(xiàng)卡上。
小哥沒有打開跟隨狀態(tài),因?yàn)樗MS時(shí)觀察各個(gè)位置的變化。
規(guī)劃器會(huì)隨時(shí)保持針對(duì)當(dāng)前任務(wù)的更新狀態(tài)。
Shell 看起來和普通的 Shell 沒什么區(qū)別,但用起來真的很有趣!
Devin 在工作過程中會(huì)打開多個(gè) shell,在 shell 的底部,用戶可以拖動(dòng)藍(lán)色滑塊來往前查看 Devin 編寫的命令。
下圖是它當(dāng)在嘗試調(diào)試棋盤未渲染的內(nèi)容。
與此同時(shí),小哥要求它再執(zhí)行一個(gè)數(shù)據(jù)分析的任務(wù)。
小哥讓 Devin 去「創(chuàng)建一張過去五十年南極洲海水溫度的地圖」。
對(duì)于這個(gè)請(qǐng)求,小哥覺得有兩個(gè)方面可能很具有挑戰(zhàn)性:
處理空間數(shù)據(jù)繪圖 / 可視化。
知道在哪里下載數(shù)據(jù),而且了解如何使用數(shù)據(jù)源,因?yàn)榈乩砜臻g數(shù)據(jù)處理起來很麻煩。
Devin 能像一個(gè)優(yōu)秀的程序員一樣聰明地閱讀自述文件,并且還執(zhí)行一些基本的 EDA 來理解數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)居然是一個(gè) ascii 文件,小哥覺得有點(diǎn)奇怪。
小哥單擊對(duì)話「調(diào)試 Python 腳本...」中的其中一個(gè)步驟時(shí),它會(huì)打開與該步驟相關(guān)的代碼庫部分,因此可以跟蹤某一個(gè)具體時(shí)間點(diǎn)發(fā)生的情況。
小哥比較擔(dān)心的是,如果不是必須要詢問 API 密鑰,Devin 似乎會(huì)不停地編碼停不下來。
所以他試了試是否可以更改他之前提出的請(qǐng)求或指定其他內(nèi)容,中斷 Devin 的編碼過程。
因?yàn)閷?duì)于大部分用戶在編碼時(shí),都有可能會(huì)改變主意或者有一些新的東西想要添加進(jìn)系統(tǒng)之中,能夠處理這種情況是很有必要的。
這是編碼過程中的截圖:
瀏覽器界面的呈現(xiàn)方式如下:
然后小哥又提了針對(duì)數(shù)據(jù)可視化的任務(wù)又提了一個(gè)要求,讓系統(tǒng)將高溫設(shè)置為藍(lán)色,低溫設(shè)置為紅色。
為了不中斷編碼的過程,似乎 Devin 又開啟了一個(gè)工作線程來記錄小哥的臨時(shí)要求。
最終,Devin 將 App 部署到了 Netlify 上了,一個(gè)應(yīng)用已經(jīng)上線了。
網(wǎng)頁的鏈接:https://t.co/wTbtz2waDn
就像人類寫的程序一樣,第一個(gè)版本肯定是有 Bug 的。
因?yàn)樾「缫蟮氖悄蠘O洲的溫度記錄,似乎對(duì)于 Devin 來說它理解起來有些障礙。
于是小哥把要求顯示的位置改為了北美。
總結(jié)
小哥沒有給出 Devin 修改了 Bug 的結(jié)果,只是初步總結(jié)了用 Devin 開發(fā)的第一個(gè)網(wǎng)站的使用體驗(yàn)。
先說優(yōu)點(diǎn):
Devin 產(chǎn)品化做得很好,他給人的使用體驗(yàn)是一個(gè)完整的產(chǎn)品而不是只是一個(gè)簡單的對(duì)話框。
AI 是系統(tǒng)最關(guān)鍵的部分,但支撐 AI 功能的產(chǎn)品化的結(jié)構(gòu)是 Devin 的亮點(diǎn)。
Devin 能夠完成自動(dòng)部署,API 密鑰保護(hù),隨時(shí)修改和添加需求等等非常好的各種功能。
產(chǎn)品的完成度已經(jīng)非常高了,遠(yuǎn)遠(yuǎn)超過了一般的演示 Demo。
再說缺點(diǎn):
Devin 的反應(yīng)還很慢,當(dāng)然小哥也說,因?yàn)樗玫氖?1M 的 Starlink 來上網(wǎng),所以反應(yīng)慢很有可能是他自己的原因。
其次就是還不能允許用戶直接自己編輯代碼,而且也沒法協(xié)作完成。
當(dāng)然,最初那個(gè)下棋的應(yīng)用,難住了 Devin,最終沒有完成部署。而那個(gè)數(shù)據(jù)可視化的任務(wù),似乎也有些 Bug。
最終,小哥用 Devin 做了一個(gè) chrome 插件,可以幫助用戶把 Github repo 轉(zhuǎn)化成 Claude prompt。
插件下載地址:https://t.co/k3l8JTWK7Z
網(wǎng)友評(píng)價(jià)
網(wǎng)友看了這個(gè)實(shí)測之后還是感覺有點(diǎn)失望,畢竟這個(gè)任務(wù)一個(gè)初級(jí)程序員是能做到的,但是 Devin 的可視化項(xiàng)目的結(jié)果只做出了一個(gè)有 Bug 的網(wǎng)頁。
看樣子 Devin 本質(zhì)上還只是一個(gè)可以上網(wǎng)的大模型,現(xiàn)在要讓他解決實(shí)際問題還有難度。
參考資料:
https://twitter.com/itsandrewgao/status/1768012781083566217?s=20
https://twitter.com/varunshenoy_/status/1767591341289250961?s=20
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。