設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek-VL2 AI 視覺(jué)模型開源:支持動(dòng)態(tài)分辨率、處理科研圖表、解析各種梗圖等

2024/12/14 10:20:38 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 Skyraver 的線索投遞!

IT之家 12 月 14 日消息,DeepSeek 官方公眾號(hào)昨日(12 月 13 日)發(fā)布博文,宣布開源 DeepSeek-VL2 模型,在各項(xiàng)評(píng)測(cè)指標(biāo)上均取得了極具優(yōu)勢(shì)的成績(jī),官方稱其視覺(jué)模型正式邁入混合專家模型(Mixture of Experts,簡(jiǎn)稱 MoE)時(shí)代。

IT之家援引官方新聞稿,附上 DeepSeek-VL2 亮點(diǎn)如下:

  • 數(shù)據(jù):比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),引入梗圖理解、視覺(jué)定位、視覺(jué)故事生成等新能力

  • 架構(gòu):視覺(jué)部分使用切圖策略支持動(dòng)態(tài)分辨率圖像,語(yǔ)言部分采用 MoE 架構(gòu)低成本高性能

  • 訓(xùn)練:繼承 DeepSeek-VL 的三階段訓(xùn)練流程,同時(shí)通過(guò)負(fù)載均衡適配圖像切片數(shù)量不定的困難,對(duì)圖像和文本數(shù)據(jù)使用不同流水并行策略,對(duì) MoE 語(yǔ)言模型引入專家并行,實(shí)現(xiàn)高效訓(xùn)練

DeepSeek-VL2 模型支持動(dòng)態(tài)分辨率,僅使用一個(gè) SigLIP-SO400M 作為圖像編碼器,通過(guò)將圖像切分為多張子圖和一張全局縮略圖來(lái)實(shí)現(xiàn)動(dòng)態(tài)分辨率圖像支持。這一策略讓 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長(zhǎng)寬比,適配更多應(yīng)用場(chǎng)景。

DeepSeek-VL2 模型還得益于更多科研文檔數(shù)據(jù)的學(xué)習(xí),可以輕松理解各種科研圖表,并通過(guò) Plot2Code,根據(jù)圖像生成 Python 代碼。

模型和論文均已發(fā)布:

模型下載:https://huggingface.co/deepseek-ai

GitHub 主頁(yè):https://github.com/ deepseek-ai/DeepSeek-VL2

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,DeepSeek

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知