這一天還是來了,AI 在操作系統(tǒng)里啟動了一個自己的副本。
往小了說,不過是多模態(tài)大模型通過操縱鼠標鍵盤的 API 執(zhí)行任務。
往大了說,也可以算是“AI 復制自己”的雛形了。
從 AI 這一頓眼花繚亂的操作中可以看出,核心是多模態(tài)大模型,通過截圖判斷屏幕上正在發(fā)生什么,生成下一步操作的計劃,調用系統(tǒng)接口執(zhí)行之后再次截圖。
要按網友建議加上語音識別功能,真就能模擬鋼鐵俠的賈維斯了。
AI 能不能復制自己,是 OpenAI 內部始終關注的安全測試內容之一。但 GPT-4 出道至今,這項測試結果一直沒有公布。
如今,先不管模型本身有沒有這個能力,接入 GPT4V 的開源項目已經可以做到了。
AI 與操作系統(tǒng)結合
這個開源項目叫作 Open Interpreter,GitHub 熱榜???,半年時間已積攢 3.7 萬星。
從名字也可以看出,最早只是一個 ChatGPT 代碼解釋器的開源升級版。
與 OpenAI 官方版相比,沒有 3 小時 50 條對話的限制,以及可以連接網絡、可以自定義預安裝的 Python 包等等好處。
發(fā)布不久后初代作者 Killian Lucas 就想到,為什么一定要在虛擬沙箱環(huán)境執(zhí)行代碼?直接讓 AI 接入真實系統(tǒng)有更大的可能性。
于是,第二個大版本就是操作系統(tǒng)級 AI Agent 了。
Open Interpreter 最近更新了第三個大版本,其中接入的大模型改為多模態(tài)版本。
核心貢獻者 Ty Fiero 展示了 AI 自動發(fā)送郵件。
以及更復雜的 AI 操作專業(yè)編曲軟件作曲。
團隊在這個版本設計了全新的 Computer API,并且與原本的 Open Interpreter 分離,可以獨立運作。
在新版本更新文檔中,可以看出團隊更大的野心:著手開發(fā) AI 時代新的計算機架構,也就是語言模型計算機 LMC(Language Model Computer)。
Kilian 借助 CES 上 199 元的 AI 掌機 Rabbit R1 爆火的機會公開招募開發(fā)者加入,打算快速復刻一個開源版本,硬件成本不到 50 美元。
不到 48 小時,就有超過 200 位工程師和設計師愿意加入這個項目,評論區(qū)中還不斷有人繼續(xù)申請中。
不知道這個團隊回復大量應聘郵件和私信,用的是不是 AI。
參考鏈接:
[1]https://twitter.com/fieroty/status/1746639975234560101
[2]https://github.com/KillianLucas/open-interpreter
本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。