IT之家 4 月 15 日消息,智譜昨日(4 月 14 日)發(fā)布博文,宣布推出新一代 GLM-4-32B-0414 系列模型,320 億參數,效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3 / R1 系列,且支持非常友好的本地部署特性。
該系列模型共有 GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414 四款模型。
GLM-4-32B-Base-0414
在預訓練階段,該模型采用 15T 高質量數據,其中包含大量推理類的合成數據,這為后續(xù)的強化學習擴展打下了基礎。
在后訓練階段,除了針對對話場景進行了人類偏好對齊外,團隊還通過拒絕采樣和強化學習等技術強化了模型在指令遵循、工程代碼、函數調用方面的效果,加強了智能體任務所需的原子能力。
GLM-4-32B-0414 在工程代碼、Artifacts 生成、函數調用、搜索問答及報告等方面都取得了不錯的效果,部分 Benchmark 甚至可以媲美更大規(guī)模的 GPT-4o、DeepSeek-V3-0324(671B)等模型。
GLM-Z1-32B-0414
該模型是具有深度思考能力的推理模型,在 GLM-4-32B-0414 的基礎上,通過冷啟動和擴展強化學習,以及在數學、代碼和邏輯等任務上對模型的進一步訓練得到的。
相對于基礎模型,GLM-Z1-32B-0414 顯著提升了數理能力和解決復雜任務的能力。在訓練的過程中,該團隊還引入了基于堆棧排序反饋的通用強化學習,進一步增強了模型的通用能力。
GLM-Z1-Rumination-32B-0414
該模型是具有沉思能力的深度推理模型(對標 Open AI 的 Deep Research)。
沉思模型通過更長時間的深度思考來解決更開放和復雜的問題(例如:撰寫兩個城市 AI 發(fā)展對比情況,以及未來的發(fā)展規(guī)劃),結合搜索工具處理復雜任務,并經過利用多種規(guī)則型獎勵來指導和擴展端到端強化學習訓練得到。
GLM-Z1-9B-0414
這是一個開源 9B 小尺寸模型,在數學推理和通用任務中依然展現出極為優(yōu)秀的能力,其整體表現已處于同尺寸開源模型中的領先水平。
測試結果
GLM-4 系列在多項基準測試中表現優(yōu)異。例如,在 IFEval 指令遵循測試中得分 87.6;在 TAU-Bench 任務自動化測試中,零售場景得分 68.7,航空場景得分 51.2;在 SimpleQA 搜索增強問答測試中得分 88.1。
模型 | IFEval | BFCL-v3 (Overall) | BFCL-v3 (MultiTurn) | TAU-Bench (Retail) | TAU-Bench (Airline) | SimpleQA | HotpotQA |
---|---|---|---|---|---|---|---|
Qwen2.5-Max | 85.6 | 50.9 | 30.5 | 58.3 | 22.0 | 79.0 | 52.8 |
GPT-4o-1120 | 81.9 | 69.6 | 41.0 | 62.8 | 46.0 | 82.8 | 63.9 |
DeepSeek-V3-0324 | 83.4 | 66.2 | 35.8 | 60.7 | 32.4 | 82.6 | 54.6 |
DeepSeek-R1 | 84.3 | 57.5 | 12.4 | 33.0 | 37.3 | 83.9 | 63.1 |
GLM-4-32B-0414 | 87.6 | 69.6 | 41.5 | 68.7 | 51.2 | 88.1 | 63.8 |
代碼修復方面,GLM-4 在 SWE-bench 測試中的成功率達 33.8%。采用 MIT 許可的 GLM-4 降低了計算成本,為研究和企業(yè)提供了高性能 AI 解決方案。
模型 | 框架 | SWE-bench Verified | SWE-bench Verified mini |
---|---|---|---|
GLM-4-32B-0414 | Moatless[1] | 33.8 | 38.0 |
GLM-4-32B-0414 | Agentless[2] | 30.7 | 34.0 |
GLM-4-32B-0414 | OpenHands[3] | 27.2 | 28.0 |
IT之家附上參考地址
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。