從 DeepSeek 火熱，到李飛飛團(tuán)隊新成果，“幕后高手”竟是它

2025/2/7 14:13:55 來源：IT之家作者：汐元責(zé)編：汐元

評論：

最近 AI 大模型領(lǐng)域可以說是熱點話題不斷，DeepSeek 的熱潮還未消退，國內(nèi)李飛飛團(tuán)隊提出的一種模型訓(xùn)練新方法又在行業(yè)里引發(fā)熱議。

具體來說，他們以阿里云通義千問 Qwen2.5-32B-Instruct 開源模型為底座，在 16 塊 H100 GPU 上進(jìn)行監(jiān)督微調(diào)，僅用時 26 分鐘便訓(xùn)練出了新模型 s1-32B。令人驚嘆的是，該模型在數(shù)學(xué)及編碼能力上取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型相當(dāng)?shù)男Ч?，甚至在競賽?shù)學(xué)問題上的表現(xiàn)比 o1-preview 高出 27%。

未命名 2

同時值得關(guān)注的是，DeepSeek 早在之前也曾透露，將 DeepSeek-R1 的推理能力蒸餾 6 個模型開源給社區(qū)，其中 4 個模型正是基于 Qwen 開發(fā)的?；?Qwen-32B 蒸餾的模型，在多項能力上實現(xiàn)了對標(biāo) OpenAI o1-mini 的效果。

這表明，Qwen 模型不僅能夠滿足頂尖團(tuán)隊對模型性能的高要求，還能為不同團(tuán)隊提供多樣化的開發(fā)路徑，助力他們在各自的研究方向上取得突破。

一時間，在開源社區(qū)備受追捧的通義千問 Qwen 模型，因這一輪推理模型技術(shù)新浪潮又一次成為大家關(guān)注的焦點。

李飛飛團(tuán)隊與 DeepSeek 紛紛選擇 Qwen 作為基座模型，已經(jīng)足以引發(fā)業(yè)界的關(guān)注和廣泛討論，而這一現(xiàn)象背后，不僅是 Qwen 模型自身強(qiáng)大的性能與獨特優(yōu)勢的體現(xiàn)，更是開源理念推動技術(shù)進(jìn)步的生動案例。

那么 Qwen 模型究竟強(qiáng)在哪里？又為什么如此受到熱捧呢？IT之家認(rèn)為主要有以下幾點原因。

首先，是阿里云 Qwen 模型具有強(qiáng)勁的性能優(yōu)勢。

據(jù)了解，阿里云通義千問 Qwen 模型自 2023 年 8 月起相繼開源了 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型，涵蓋了大語言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型等數(shù)十款。這些模型在全球多個權(quán)威榜單上屢次斬獲“全球開源冠軍”，性能全球領(lǐng)先。

例如，在 HuggingFace 的 Open LLM Leaderboard、Chatbot Arena 大模型盲測榜單、司南 OpenCompass 等多個國內(nèi)外知名榜單上，Qwen 模型都展現(xiàn)出了卓越的實力。其強(qiáng)大的性能為開發(fā)者提供了堅實的基礎(chǔ)，使得基于 Qwen 開發(fā)的模型能夠在各種應(yīng)用場景中表現(xiàn)出色。

除了強(qiáng)勁的性能，Qwen 模型的開源策略也是是其受到廣泛歡迎的重要原因之一。

要知道，阿里云率先實現(xiàn)了“全尺寸、全模態(tài)、多場景”的開源，從 1.5B 到 72B 乃至 110B，Qwen 開源的模型尺寸及版本覆蓋面最廣。這種多樣化的選擇為開發(fā)者和企業(yè)提供了極大的便利，無論是小型項目還是大規(guī)模應(yīng)用，都能找到適合的 Qwen 模型版本。2024 年，僅 Qwen2.5-1.5B-Instruct 這款模型，就占到了全球模型下載量的 26.6%，遠(yuǎn)高于第二名 Llama-3.1-8B-Instruct-GGUF 的 6.44%。同時僅視覺理解 Qwen-VL 及 Qwen2-VL 兩款模型，全球下載量就突破 3200 萬次，一周前，Qwen2.5-VL 全新升級，又引發(fā)新一輪開源社區(qū)狂熱。這充分說明了 Qwen 模型在開源社區(qū)中的受歡迎程度。

第三點，Qwen 模型的火熱還得益于其龐大的衍生模型群。

截至目前，海內(nèi)外開源社區(qū)中 Qwen 的衍生模型數(shù)量已突破 9 萬，超越了 Llama 系列衍生模型，成為世界最大的生成式語言模型族群。這一龐大的衍生模型群不僅體現(xiàn)了 Qwen 模型的廣泛影響力，也反映了其在技術(shù)上的可擴(kuò)展性和適應(yīng)性。全球 AI 模型開發(fā)者都可以基于 Qwen 進(jìn)行不同技術(shù)的差異化比較，從而進(jìn)一步推動了 Qwen 的火熱。這種開源生態(tài)的繁榮，使得 Qwen 成為了開源社區(qū)事實上最重要的標(biāo)桿基座模型。

通過以上三點的分析，我們其實已經(jīng)可以得出結(jié)論：Qwen 模型性能強(qiáng)勁，開源尺寸多樣化，并且擁有全球最大的衍生模型群，已經(jīng)取代 Llama 成為開源社區(qū)事實上最重要的標(biāo)桿基座模型。

總之，阿里云通義千問 Qwen 模型因其強(qiáng)勁的性能、開源與尺寸多樣化以及龐大的衍生模型群等優(yōu)勢，成為了李飛飛團(tuán)隊和 DeepSeek 的共同選擇。這不僅展示了 Qwen 模型在人工智能領(lǐng)域的卓越實力，也體現(xiàn)了開源理念在推動技術(shù)創(chuàng)新、促進(jìn)開源生態(tài)建設(shè)和助力行業(yè)應(yīng)用落地等方面的重要價值。隨著人工智能技術(shù)的不斷發(fā)展，我們有理由相信，Qwen 模型將繼續(xù)引領(lǐng)開源潮流，為全球人工智能的發(fā)展貢獻(xiàn)更多力量。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

從 DeepSeek 火熱，到李飛飛團(tuán)隊新成果，“幕后高手”竟是它

相關(guān)文章

從 DeepSeek 火熱，到李飛飛團(tuán)隊新成果，“幕后高手”竟是它