設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 推出 SWE-bench Verified 基準(zhǔn),更準(zhǔn)確評估 AI 模型代碼生成表現(xiàn)

2024/8/15 14:34:33 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 我搶了臺 的線索投遞!

IT之家 8 月 15 日消息,OpenAI 公司于 8 月 13 日發(fā)布新聞稿,宣布推出 SWE-bench Verified 代碼生成評估基準(zhǔn),解決了此前的局限性問題,能夠更準(zhǔn)確地評估人工智能模型在軟件工程任務(wù)中的表現(xiàn)。

SWE-bench

IT之家注:SWE-Bench 是一個用于評估 LLM 解決 GitHub 上真實軟件問題能力的基準(zhǔn)測試數(shù)據(jù)集。

它收集了來自 12 個流行的 Python 倉庫的 2294 個 Issue-Pull Request 對。在測試時,LLM 會拿到一個代碼庫和 issue 描述,然后生成一個補丁來解決 issue 描述的問題。

該基準(zhǔn)使用兩種類型的測試:

  • FAIL_TO_PASS 測試用于檢查問題是否已得到解決

  • PASS_TO_PASS 測試用于確保代碼更改不會破壞現(xiàn)有功能。

SWE-bench 的問題

OpenAI 指出了 SWE-bench 的三個主要問題:

  • 單元測試過于嚴(yán)格:用于評估解決方案正確性的單元測試往往過于具體,有時甚至與問題無關(guān),這可能導(dǎo)致拒絕正確的解決方案。

  • 問題描述不明確:許多樣本的問題描述不夠具體,導(dǎo)致問題是什么以及應(yīng)如何解決含糊不清。

  • 開發(fā)環(huán)境難以設(shè)置:有時很難可靠地為代理設(shè)置 SWE-bench 開發(fā)環(huán)境,從而無意中導(dǎo)致單元測試失敗。

SWE-bench Verified

SWE-bench Verified 的主要改進(jìn)之一是使用容器化 Docker 環(huán)境開發(fā)了新的評估工具包。

這一改進(jìn)旨在使評估過程更加一致和可靠,降低與開發(fā)環(huán)境設(shè)置相關(guān)的問題發(fā)生的可能性。

例如,GPT-4o 解決了 33.2% 的樣本,而表現(xiàn)最佳的開源代理框架 Agentless 的得分翻了一番,達(dá)到 16%。

性能的提高表明,SWE-bench Verified 更好地捕捉到了人工智能模型在軟件工程任務(wù)中的真正能力。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAIAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知