最近 AI 大模型領(lǐng)域可以說是熱點話題不斷,DeepSeek 的熱潮還未消退,國內(nèi)李飛飛團(tuán)隊提出的一種模型訓(xùn)練新方法又在行業(yè)里引發(fā)熱議。
具體來說,他們以阿里云通義千問 Qwen2.5-32B-Instruct 開源模型為底座,在 16 塊 H100 GPU 上進(jìn)行監(jiān)督微調(diào),僅用時 26 分鐘便訓(xùn)練出了新模型 s1-32B。令人驚嘆的是,該模型在數(shù)學(xué)及編碼能力上取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型相當(dāng)?shù)男Ч?,甚至在競賽?shù)學(xué)問題上的表現(xiàn)比 o1-preview 高出 27%。
同時值得關(guān)注的是,DeepSeek 早在之前也曾透露,將 DeepSeek-R1 的推理能力蒸餾 6 個模型開源給社區(qū),其中 4 個模型正是基于 Qwen 開發(fā)的?;?Qwen-32B 蒸餾的模型,在多項能力上實現(xiàn)了對標(biāo) OpenAI o1-mini 的效果。
這表明,Qwen 模型不僅能夠滿足頂尖團(tuán)隊對模型性能的高要求,還能為不同團(tuán)隊提供多樣化的開發(fā)路徑,助力他們在各自的研究方向上取得突破。
一時間,在開源社區(qū)備受追捧的通義千問 Qwen 模型,因這一輪推理模型技術(shù)新浪潮又一次成為大家關(guān)注的焦點。
李飛飛團(tuán)隊與 DeepSeek 紛紛選擇 Qwen 作為基座模型,已經(jīng)足以引發(fā)業(yè)界的關(guān)注和廣泛討論,而這一現(xiàn)象背后,不僅是 Qwen 模型自身強(qiáng)大的性能與獨特優(yōu)勢的體現(xiàn),更是開源理念推動技術(shù)進(jìn)步的生動案例。
那么 Qwen 模型究竟強(qiáng)在哪里?又為什么如此受到熱捧呢?IT之家認(rèn)為主要有以下幾點原因。
首先,是阿里云 Qwen 模型具有強(qiáng)勁的性能優(yōu)勢。
據(jù)了解,阿里云通義千問 Qwen 模型自 2023 年 8 月起相繼開源了 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型,涵蓋了大語言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型等數(shù)十款。這些模型在全球多個權(quán)威榜單上屢次斬獲“全球開源冠軍”,性能全球領(lǐng)先。
例如,在 HuggingFace 的 Open LLM Leaderboard、Chatbot Arena 大模型盲測榜單、司南 OpenCompass 等多個國內(nèi)外知名榜單上,Qwen 模型都展現(xiàn)出了卓越的實力。其強(qiáng)大的性能為開發(fā)者提供了堅實的基礎(chǔ),使得基于 Qwen 開發(fā)的模型能夠在各種應(yīng)用場景中表現(xiàn)出色。
除了強(qiáng)勁的性能,Qwen 模型的開源策略也是是其受到廣泛歡迎的重要原因之一。
要知道,阿里云率先實現(xiàn)了“全尺寸、全模態(tài)、多場景”的開源,從 1.5B 到 72B 乃至 110B,Qwen 開源的模型尺寸及版本覆蓋面最廣。這種多樣化的選擇為開發(fā)者和企業(yè)提供了極大的便利,無論是小型項目還是大規(guī)模應(yīng)用,都能找到適合的 Qwen 模型版本。2024 年,僅 Qwen2.5-1.5B-Instruct 這款模型,就占到了全球模型下載量的 26.6%,遠(yuǎn)高于第二名 Llama-3.1-8B-Instruct-GGUF 的 6.44%。同時僅視覺理解 Qwen-VL 及 Qwen2-VL 兩款模型,全球下載量就突破 3200 萬次,一周前,Qwen2.5-VL 全新升級,又引發(fā)新一輪開源社區(qū)狂熱。這充分說明了 Qwen 模型在開源社區(qū)中的受歡迎程度。
第三點,Qwen 模型的火熱還得益于其龐大的衍生模型群。
截至目前,海內(nèi)外開源社區(qū)中 Qwen 的衍生模型數(shù)量已突破 9 萬,超越了 Llama 系列衍生模型,成為世界最大的生成式語言模型族群。這一龐大的衍生模型群不僅體現(xiàn)了 Qwen 模型的廣泛影響力,也反映了其在技術(shù)上的可擴(kuò)展性和適應(yīng)性。全球 AI 模型開發(fā)者都可以基于 Qwen 進(jìn)行不同技術(shù)的差異化比較,從而進(jìn)一步推動了 Qwen 的火熱。這種開源生態(tài)的繁榮,使得 Qwen 成為了開源社區(qū)事實上最重要的標(biāo)桿基座模型。
通過以上三點的分析,我們其實已經(jīng)可以得出結(jié)論:Qwen 模型性能強(qiáng)勁,開源尺寸多樣化,并且擁有全球最大的衍生模型群,已經(jīng)取代 Llama 成為開源社區(qū)事實上最重要的標(biāo)桿基座模型。
總之,阿里云通義千問 Qwen 模型因其強(qiáng)勁的性能、開源與尺寸多樣化以及龐大的衍生模型群等優(yōu)勢,成為了李飛飛團(tuán)隊和 DeepSeek 的共同選擇。這不僅展示了 Qwen 模型在人工智能領(lǐng)域的卓越實力,也體現(xiàn)了開源理念在推動技術(shù)創(chuàng)新、促進(jìn)開源生態(tài)建設(shè)和助力行業(yè)應(yīng)用落地等方面的重要價值。隨著人工智能技術(shù)的不斷發(fā)展,我們有理由相信,Qwen 模型將繼續(xù)引領(lǐng)開源潮流,為全球人工智能的發(fā)展貢獻(xiàn)更多力量。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。