阿里云確認：李飛飛團隊 s1 模型基于 Qwen2.5-32B-Instruct 模型訓練

2025/2/6 22:05:22 來源：IT之家作者：浩渺責編：浩渺

評論：

IT之家 2 月 6 日消息，今日，李飛飛研究團隊以不到 50 美元的云計算費用訓練了一個名叫 s1 的人工智能推理模型，該模型在數學和編碼能力測試中的表現(xiàn)與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型類似。

不過很快，該 s1 模型被指“并非從零開始訓練”，其基座模型為“阿里通義千問（Qwen）模型”。對此，新浪科技向阿里云方面求證，阿里云方面確認了這一消息。

阿里云回應稱：“他們以阿里通義千問 Qwen2.5-32B-Instruct 開源模型為底座，在 16 塊 H100 GPU 上監(jiān)督微調 26 分鐘，訓練出新模型 s1-32B，取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數學及編碼能力相當的效果，甚至在競賽數學問題上的表現(xiàn)比 o1-preview 高出 27%。”

阿里云確認：李飛飛團隊 s1 模型基于 Qwen2.5-32B-Instruct 模型訓練

據IT之家此前報道，s1 團隊透露他們通過“蒸餾”技術創(chuàng)建了該人工智能模型，該技術旨在通過訓練模型來學習另一個人工智能模型的答案，從而提取其“推理”能力。

s1 的論文表明，可以使用一種稱為監(jiān)督微調（SFT）的方法，可以使用相對較小的數據集來蒸餾推理模型。在 SFT 中，人工智能模型會被明確指示在數據集中模仿某些行為。SFT 比 DeepSeek 用于訓練其 R1 模型的大規(guī)模強化學習方法更具成本效益。

s1 基于阿里巴巴旗下中國人工智能實驗室 Qwen 提供的一款小型、現(xiàn)成的免費人工智能模型。為了訓練 s1，研究人員創(chuàng)建了一個僅包含 1000 個精心策劃的問題的數據集，以及這些問題的答案，以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個答案背后的“思考”過程。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：阿里云，李飛飛，s1 模型

阿里云確認：李飛飛團隊 s1 模型基于 Qwen2.5-32B-Instruct 模型訓練

相關文章