設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里云推出最新通義千問 QwQ-32B 推理模型并開源,僅 1/20 參數(shù)媲美 DeepSeek R1

2025/3/6 7:08:05 來源:IT之家 作者:問舟 責編:問舟
感謝IT之家網(wǎng)友 weit楓 的線索投遞!

IT之家 3 月 6 日消息,研究表明,強化學習可以顯著提高模型的推理能力,例如 DeepSeek-R1 通過整合冷啟動數(shù)據(jù)和多階段訓練,實現(xiàn)了最先進的性能,使其能夠進行深度思考和復雜推理。

阿里云通義千問官方今日宣布推出最新的推理模型 QwQ-32B。這是一款擁有 320 億參數(shù)的模型,其性能可與具備 6710 億參數(shù)(其中 370 億被激活)的 DeepSeek-R1 媲美。

這一成果凸顯了將強化學習應用于經(jīng)過大規(guī)模預訓練的強大基礎模型的有效性。此外,我們還在推理模型中集成了與 Agent 相關的能力,使其能夠在使用工具的同時進行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過程。

目前,QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開源,并采用了 Apache 2.0 開源協(xié)議。IT之家提醒,用戶也可以通過 Qwen Chathttps://chat.qwen.ai/?models=Qwen2.5-Plus)直接進行體驗。

圖片

性能方面,阿里云對 QwQ-32B 測試了數(shù)學推理、編程能力和通用能力,并展示了 QwQ-32B 與其他領先模型的性能對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

在測試數(shù)學能力的 AIME24 評測集上,以及評估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現(xiàn)與 DeepSeek-R1 相當,遠勝于 o1-mini 及相同尺寸的 R1 蒸餾模型;在由 Meta 首席科學家楊立昆領銜的“最難 LLMs 評測榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 評測集、由加州大學伯克利分校等提出的評估準確調(diào)用函數(shù)或工具方面的 BFCL 測試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。

阿里云表示,這是 Qwen 在大規(guī)模強化學習(RL)以增強推理能力方面的第一步。通過這一旅程,不僅見證了擴展 RL 的巨大潛力,還認識到預訓練語言模型中尚未開發(fā)的可能性。

在致力于開發(fā)下一代 Qwen 的過程中,阿里云計劃將更強大的基礎模型與依托規(guī)模化計算資源的 RL 相結合,從而使其更接近實現(xiàn)人工通用智能(AGI)。此外,阿里云正積極探索將智能體與 RL 集成,以實現(xiàn)長時推理,目標是通過推理時間擴展來釋放更高的智能,敬請期待。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:通義千問

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知