IT之家 2 月 6 日消息,今日,李飛飛研究團隊以不到 50 美元的云計算費用訓練了一個名叫 s1 的人工智能推理模型,該模型在數學和編碼能力測試中的表現(xiàn)與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型類似。
不過很快,該 s1 模型被指“并非從零開始訓練”,其基座模型為“阿里通義千問(Qwen)模型”。對此,新浪科技向阿里云方面求證,阿里云方面確認了這一消息。
阿里云回應稱:“他們以阿里通義千問 Qwen2.5-32B-Instruct 開源模型為底座,在 16 塊 H100 GPU 上監(jiān)督微調 26 分鐘,訓練出新模型 s1-32B,取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數學及編碼能力相當的效果,甚至在競賽數學問題上的表現(xiàn)比 o1-preview 高出 27%。”
據IT之家此前報道,s1 團隊透露他們通過“蒸餾”技術創(chuàng)建了該人工智能模型,該技術旨在通過訓練模型來學習另一個人工智能模型的答案,從而提取其“推理”能力。
s1 的論文表明,可以使用一種稱為監(jiān)督微調(SFT)的方法,可以使用相對較小的數據集來蒸餾推理模型。在 SFT 中,人工智能模型會被明確指示在數據集中模仿某些行為。SFT 比 DeepSeek 用于訓練其 R1 模型的大規(guī)模強化學習方法更具成本效益。
s1 基于阿里巴巴旗下中國人工智能實驗室 Qwen 提供的一款小型、現(xiàn)成的免費人工智能模型。為了訓練 s1,研究人員創(chuàng)建了一個僅包含 1000 個精心策劃的問題的數據集,以及這些問題的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個答案背后的“思考”過程。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。