IT之家 3 月 24 日消息,科技媒體 marktechpost 昨日(3 月 23 日)發(fā)布博文,報道稱 Meta AI 公司攜手加州大學伯克利分校,合作推出名為 SWEET-RL 的強化學習框架,并發(fā)布了 CollaborativeAgentBench(ColBench)基準測試。
這一創(chuàng)新旨在提升大語言模型(LLMs)在多輪人機協(xié)作任務中的表現(xiàn),特別是在后端編程和前端設計領(lǐng)域。SWEET-RL 通過逐輪優(yōu)化決策,顯著提高了模型的任務完成率,并展示了其在開源模型(如 Llama-3.1-8B)與專有模型(如 GPT-4o)競爭中的潛力。
項目背景
IT之家援引博文介紹,大語言模型正逐漸演變?yōu)槟軌驁?zhí)行復雜任務的自主智能體,但在多輪決策任務中仍面臨挑戰(zhàn)。
傳統(tǒng)訓練方法依賴于單輪反饋或模仿高概率行為,無法有效處理長期依賴和累積目標。這導致模型在協(xié)作場景中表現(xiàn)不佳,特別是在理解人類意圖和多步驟推理方面。
SWEET-RL 的創(chuàng)新之處
SWEET-RL 采用非對稱的“演員-評論家”結(jié)構(gòu),評論家在訓練過程中可以訪問額外信息(如正確答案),從而更精確地評估演員的決策。
該框架直接建模逐輪的優(yōu)勢函數(shù),簡化了信用分配過程,并與 LLMs 的預訓練架構(gòu)更好地對齊。實驗結(jié)果顯示,SWEET-RL 在后端編程任務中通過率提升至 48.0%,前端設計任務的余弦相似度達到 76.9%,顯著優(yōu)于其他多輪強化學習方法。
ColBench 基準測試
ColBench 包含超過 10000 個訓練任務和 1000 個測試案例,模擬真實的人機協(xié)作場景。任務設計涵蓋后端編程(如 Python 函數(shù)編寫)和前端設計(如 HTML 代碼生成),并限制每輪交互最多 10 次。
這一基準測試通過單元測試通過率(代碼)和余弦相似度(設計)評估模型表現(xiàn),為多輪任務提供了可靠的評估標準。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。