IT之家 12 月 14 日消息,DeepSeek 官方公眾號(hào)昨日(12 月 13 日)發(fā)布博文,宣布開源 DeepSeek-VL2 模型,在各項(xiàng)評(píng)測(cè)指標(biāo)上均取得了極具優(yōu)勢(shì)的成績(jī),官方稱其視覺(jué)模型正式邁入混合專家模型(Mixture of Experts,簡(jiǎn)稱 MoE)時(shí)代。
IT之家援引官方新聞稿,附上 DeepSeek-VL2 亮點(diǎn)如下:
數(shù)據(jù):比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),引入梗圖理解、視覺(jué)定位、視覺(jué)故事生成等新能力
架構(gòu):視覺(jué)部分使用切圖策略支持動(dòng)態(tài)分辨率圖像,語(yǔ)言部分采用 MoE 架構(gòu)低成本高性能
訓(xùn)練:繼承 DeepSeek-VL 的三階段訓(xùn)練流程,同時(shí)通過(guò)負(fù)載均衡適配圖像切片數(shù)量不定的困難,對(duì)圖像和文本數(shù)據(jù)使用不同流水并行策略,對(duì) MoE 語(yǔ)言模型引入專家并行,實(shí)現(xiàn)高效訓(xùn)練
DeepSeek-VL2 模型支持動(dòng)態(tài)分辨率,僅使用一個(gè) SigLIP-SO400M 作為圖像編碼器,通過(guò)將圖像切分為多張子圖和一張全局縮略圖來(lái)實(shí)現(xiàn)動(dòng)態(tài)分辨率圖像支持。這一策略讓 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比,適配更多應(yīng)用場(chǎng)景。
DeepSeek-VL2 模型還得益于更多科研文檔數(shù)據(jù)的學(xué)習(xí),可以輕松理解各種科研圖表,并通過(guò) Plot2Code,根據(jù)圖像生成 Python 代碼。
模型和論文均已發(fā)布:
模型下載:https://huggingface.co/deepseek-ai
GitHub 主頁(yè):https://github.com/ deepseek-ai/DeepSeek-VL2
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。