首頁 > 智能時代>人工智能

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

量子位 2024/8/13 14:00:40 責(zé)編：汪淼

評論：

繼 Devin 之后，又一個 AI 軟件工程師被刷屏了 —— 它叫 Genie，號稱目前地表最強(qiáng)，已經(jīng)可以像人一樣思考和行動了！

那么這個“地表最強(qiáng)”，到底強(qiáng)到什么程度？先來看下評測分?jǐn)?shù)。

在權(quán)威榜單 SWE-Bench 中，Genie 以解決了 30.07% 問題的成績奪得榜首。

（SWE-Bench 是一個用來評估大模型解決現(xiàn)實中軟件問題的基準(zhǔn)。）

而這個成績可謂是遙遙領(lǐng)先第二名 19.27%，解鎖了提升 SOTA 的最大增幅 —— 57%！

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

至于 Genie 的實際效果，用團(tuán)隊的話來說就是：

它可以做到像人類工程師一樣解決現(xiàn)實生活中的軟件問題。

首先，你可以用 4 種方式讓 Genie 開始工作，分別是提示詞、GitHub Issue、Linear Ticket 或者 API。

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

以解決 GitHub Issue 為例，先喂給 Genie 一個 repo 的鏈接，它就開始自動解析問題了：

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

Genie 會自動迭代思考如果想要解決這個問題它都需要哪些文件，直到它覺得找到了自己滿意的為止：

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

緊接著，它將對問題做一個自動迭代分析的過程：

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

然后 Genie 就開始“唰唰唰”地自動寫 + 跑代碼了：

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

如果運(yùn)行代碼過程中出現(xiàn) bug，Genie 會只針對出問題的地方再重復(fù)分析、寫代碼和運(yùn)行的過程，直至跑通為止。

而整個過程，僅僅耗時 84 秒！

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

用團(tuán)隊的話來說：

Genie 已經(jīng)觀察并學(xué)習(xí)人類程序員如何解決軟件問題的次數(shù)達(dá)到了數(shù)百萬次。
這是任何一個人類程序員一輩子都無法達(dá)到的數(shù)量。

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

但更令人意想不到的是，Genie 背后的團(tuán)隊 —— Cosine，才僅僅 5 人。

而且 CEO Alistair 還發(fā)文感謝 OpenAI：

沒有你們，我們做不出來 Genie。

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

那么 Cosine 團(tuán)隊，究竟是如何打造 Genie 的呢。

最強(qiáng) AI 工程師是如何煉成的？

Genie 的主要特點，是能夠模仿人類工程師的認(rèn)知過程、邏輯和工作流。

為做到這一點，Genie 團(tuán)隊透露過去一年收集了一個包含真實人類程序員開發(fā)活動的數(shù)據(jù)集。

其中不僅使用了成果分析、靜態(tài)分析、自我對弈、逐步驗證等方法，還用到了基于大量標(biāo)記數(shù)據(jù)訓(xùn)練的 AI 模型。好處是，當(dāng)基礎(chǔ)模型能力提升時，它們能夠提取的數(shù)據(jù)質(zhì)量也會相應(yīng)提高。

最終 Genie 使用該專有數(shù)據(jù)進(jìn)行訓(xùn)練。

數(shù)據(jù)集中編碼了人類推理的完整過程，包括完美的信息溯源、增量知識發(fā)現(xiàn)，還有基于軟件工程師實際工作案例的逐步?jīng)Q策過程。

Genie 的推理過程包括規(guī)劃、檢索、代碼編寫和代碼運(yùn)行四個主要步驟，突破了其它 AI 工程師依靠在基礎(chǔ)模型之上添加網(wǎng)頁瀏覽器、代碼解釋器等額外工具的限制，能夠像人一樣處理多樣化的、高度情境的、前所未見的問題。

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

這種訓(xùn)練方法，讓網(wǎng)友們立刻想到，之前 Karpathy 也提出的類似想法：

對于 LLM 來說，理想的訓(xùn)練數(shù)據(jù)并不是你所寫的內(nèi)容本身，而是你在寫作過程中的完整思考過程和每一個編輯動作。然而，我們只能盡力利用現(xiàn)有的資源。

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人

除此之外，Genie 訓(xùn)練中還引入了自我改進(jìn)機(jī)制。

初始訓(xùn)練數(shù)據(jù)多為可正常運(yùn)行的沒有錯誤的代碼，導(dǎo)致 Genie 導(dǎo)致難以應(yīng)對錯誤情況。為解決這個問題，團(tuán)隊使用初代版本的 Genie 生成包含錯誤的合成數(shù)據(jù)，然后用這些數(shù)據(jù)訓(xùn)練下一版模型。

具體來說，使用舊版本 Genie 提出解決方案，如果解決方案錯誤，就利用掌握的任務(wù)最終狀態(tài)來教它從當(dāng)前狀態(tài)達(dá)到正確狀態(tài)。

不斷重復(fù)這一過程，Genie 提出的初始解決方案逐漸變得更準(zhǔn)確，在多數(shù)情況下能直接給出正確答案，即使出錯也只需在數(shù)據(jù)集中作較少的修正。

Genie 能力提升的另一大關(guān)鍵，在于 OpenAI 提供的大模型支持。

團(tuán)隊表示，最初開發(fā) Genie 時，只能訪問微調(diào) 16-32k 范圍內(nèi)的短上下文模型，他們用這些模型進(jìn)行了大量早期開發(fā)，用超 1 億 token 的數(shù)據(jù)訓(xùn)練模型，雖然發(fā)現(xiàn)設(shè)計的架構(gòu)有一定優(yōu)勢，但從根本上受限于模型在特定時間內(nèi)可以處理的信息量。

嘗試了各種壓縮 / 分塊方法后，唯一的解決方法就是使用更大上下文的模型。

OpenAI 提供了長上下文模型支持，最新版本的 Genie 經(jīng)過了數(shù)十億 token 的數(shù)據(jù)訓(xùn)練。

團(tuán)隊認(rèn)為，相比超參數(shù)調(diào)整和數(shù)據(jù)量，數(shù)據(jù)的質(zhì)量才是關(guān)鍵。因此他們還在數(shù)據(jù)混合方面進(jìn)行了大量實驗，包括語言、任務(wù)類型、任務(wù)長度等多個維度，以下是訓(xùn)練 Genie 的不同編程語言數(shù)據(jù)的占比：

最強(qiáng) AI 程序員 Genie 砸飯碗：84 秒跑通代碼，像人一樣思考，團(tuán)隊僅 5 人