IT之家 3 月 25 日消息,DeepSeek-V3 模型昨日進(jìn)行了小版本更新,今晚官方發(fā)布了該更新的詳情。
IT之家附全文內(nèi)容如下:
DeepSeek V3 模型已完成小版本升級(jí),目前版本號(hào) DeepSeek-V3-0324,用戶登錄官方網(wǎng)頁(yè)、App、小程序進(jìn)入對(duì)話界面后,關(guān)閉深度思考即可體驗(yàn)。API 接口和使用方式保持不變。如非復(fù)雜推理任務(wù),建議使用新版本 V3 模型,即刻享受速度更加流暢、效果全面提升的對(duì)話體驗(yàn)。
模型能力提升一覽
推理任務(wù)表現(xiàn)提高
新版 V3 模型借鑒 DeepSeek-R1 模型訓(xùn)練過(guò)程中所使用的強(qiáng)化學(xué)習(xí)技術(shù),大幅提高了在推理類(lèi)任務(wù)上的表現(xiàn)水平,在數(shù)學(xué)、代碼類(lèi)相關(guān)評(píng)測(cè)集上取得了超過(guò) GPT-4.5 的得分成績(jī)。
前端開(kāi)發(fā)能力增強(qiáng)
在 HTML 等代碼前端任務(wù)上,新版 V3 模型生成的代碼可用性更高,視覺(jué)效果也更加美觀、富有設(shè)計(jì)感。
中文寫(xiě)作升級(jí)
在中文寫(xiě)作任務(wù)方面,新版 V3 模型基于 R1 的寫(xiě)作水平進(jìn)行了進(jìn)一步優(yōu)化,同時(shí)特別提升了中長(zhǎng)篇文本創(chuàng)作的內(nèi)容質(zhì)量。
中文搜索能力優(yōu)化
新版 V3 模型可以在聯(lián)網(wǎng)搜索場(chǎng)景下,對(duì)于報(bào)告生成類(lèi)指令輸出內(nèi)容更為詳實(shí)準(zhǔn)確、排版更加清晰美觀的結(jié)果。
此外,新版 V3 模型在工具調(diào)用、角色扮演、問(wèn)答閑聊等方面也得到了一定幅度的能力提升。
模型開(kāi)源
DeepSeek-V3-0324 與之前的 DeepSeek-V3 使用同樣的 base 模型,僅改進(jìn)了后訓(xùn)練方法。私有化部署時(shí)只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關(guān)變動(dòng))。模型參數(shù)約 660B,開(kāi)源版本上下文長(zhǎng)度為 128K(網(wǎng)頁(yè)端、App 和 API 提供 64K 上下文)。V3-0324 模型權(quán)重下載請(qǐng)參考:
Model Scope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324
Huggingface:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
與 DeepSeek-R1 保持一致,此次我們的開(kāi)源倉(cāng)庫(kù)(包括模型權(quán)重)統(tǒng)一采用 MIT License,并允許用戶利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。