2 月 5 日下午消息,近日,面壁智能聯(lián)合創(chuàng)始人兼首席科學(xué)家劉知遠(yuǎn)在談及 DeepSeek 近期引發(fā)的熱潮時(shí)指出,“DeepSeek 最近發(fā)布 R1 模型的重要價(jià)值在于它能夠完美復(fù)現(xiàn) OpenAI o1 的深度推理能力,并且他通過開源的方式發(fā)布了相對(duì)詳細(xì)的介紹,為行業(yè)作出了重要貢獻(xiàn)。”
劉知遠(yuǎn)指出,“因?yàn)?OpenAI o1 本身并沒有提供關(guān)于其實(shí)現(xiàn)細(xì)節(jié)的任何信息,它相當(dāng)于引爆了一個(gè)原子彈,但沒有告訴大家秘方,而 DeepSeek 可能是全球首個(gè)能通過純粹的強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn) OpenAI o1 能力的團(tuán)隊(duì),并且還把這種能力開源了?!?/p>
劉知遠(yuǎn)總結(jié)指出,DeepSeek R1 的整個(gè)訓(xùn)練流程有兩個(gè)非常重要的亮點(diǎn)或價(jià)值:一是通過規(guī)則驅(qū)動(dòng)的方法實(shí)現(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí);二是通過深度推理 SFT 數(shù)據(jù)與通用 SFT 數(shù)據(jù)的混合微調(diào),實(shí)現(xiàn)了推理能力的跨任務(wù)泛化;這使得 DeepSeek R1 能夠成功復(fù)現(xiàn) OpenAI o1 的推理水平。
首先,DeepSeek R1 創(chuàng)造性地基于 DeepSeek V3 基座模型,通過大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù),得到了一個(gè)純粹通過強(qiáng)化學(xué)習(xí)增強(qiáng)的強(qiáng)推理模型,即 DeepSeek-R1-Zero,這具有非常重要的價(jià)值,因?yàn)樵跉v史上幾乎沒有團(tuán)隊(duì)能夠成功地將強(qiáng)化學(xué)習(xí)技術(shù)很好地應(yīng)用于大規(guī)模模型上,并實(shí)現(xiàn)大規(guī)模訓(xùn)練。DeepSeek 能夠?qū)崿F(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)的一個(gè)重要技術(shù)特點(diǎn)是其采用了基于規(guī)則(rule-based)的方法,確保強(qiáng)化學(xué)習(xí)可以規(guī)模化,并實(shí)現(xiàn)面向強(qiáng)化學(xué)習(xí)的擴(kuò)展(Scaling),這是它的第一個(gè)貢獻(xiàn)。
其次,DeepSeek R1 的第二個(gè)重要貢獻(xiàn)在于其強(qiáng)化學(xué)習(xí)技術(shù)不僅局限于數(shù)學(xué)、算法代碼等容易提供獎(jiǎng)勵(lì)信號(hào)的領(lǐng)域,還能創(chuàng)造性地將強(qiáng)化學(xué)習(xí)帶來的強(qiáng)推理能力泛化到其他領(lǐng)域。這也是用戶在實(shí)際使用 DeepSeek R1 進(jìn)行寫作等任務(wù)時(shí),能夠感受到其強(qiáng)大的深度思考能力的原因。
“這種泛化能力的實(shí)現(xiàn)分為兩個(gè)階段:首先,基于 DeepSeek V3 基座模型,通過增強(qiáng)推理過程的可讀性,生成了帶有深度推理能力的 SFT(Supervised Fine-Tuning)數(shù)據(jù),這種數(shù)據(jù)結(jié)合了深度推理能力和傳統(tǒng)通用 SFT 數(shù)據(jù),用于微調(diào)大模型;隨后,進(jìn)一步通過強(qiáng)化學(xué)習(xí)訓(xùn)練,得到了具有強(qiáng)大泛化能力的強(qiáng)推理模型,即 DeepSeek R1?!眲⒅h(yuǎn)表示。
在他看來,DeepSeek R1 能夠取得如此全球性的成功呢,與 OpenAI 在發(fā)布 o1 之后選擇不開源,同時(shí)將 o1 深度思考的過程隱藏起來,并且采用了非常高的收費(fèi)方式有關(guān)?!斑@使得 o1 無法在全球范圍內(nèi)讓盡可能多的人普惠地感受到深度思考所帶來的震撼,而 DeepSeek R1 則像 2023 年初 OpenAI 的 ChatGPT 一樣,讓所有人真正感受到了這種震撼,這是 DeepSeek R1 出圈的非常重要的原因?!?/p>
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。