IT之家 1 月 28 日消息,就在北京時(shí)間今日凌晨,DeepSeek 宣布開源全新的視覺多模態(tài)模型 Janus-Pro-7B,其在 GenEval 和 DPG-Bench 基準(zhǔn)測(cè)試中擊敗了 Stable Diffusion 和 OpenAI 的 DALL-E 3。
IT之家附地址:
GitHub:點(diǎn)此前往
HuggingFace:點(diǎn)此前往
官方對(duì)該模型的介紹大意如下:
Janus-Pro 是一種創(chuàng)新的自回歸框架,實(shí)現(xiàn)多模態(tài)信息的統(tǒng)一理解與生成。與以往的方法不同,Janus-Pro 通過將視覺編碼過程拆分為多個(gè)獨(dú)立的路徑,解決了以往框架中的一些局限性,同時(shí)仍采用單一的統(tǒng)一變換器架構(gòu)進(jìn)行處理。
這一解耦方式不僅有效緩解了視覺編碼器在理解和生成過程中可能出現(xiàn)的沖突,還提升了框架的靈活性。
Janus 的表現(xiàn)超越了傳統(tǒng)的統(tǒng)一模型,并且在與任務(wù)特定模型的比較中也同樣表現(xiàn)出色。憑借其簡(jiǎn)潔、高靈活性和高效性的特點(diǎn),Janus-Pro 成為下一代統(tǒng)一多模態(tài)模型的有力競(jìng)爭(zhēng)者。
摘要的大意如下:
Janus-Pro 是一個(gè)統(tǒng)一的多模態(tài)大語言模型(MLLM),通過將視覺編碼過程從多模態(tài)理解和生成中解耦來實(shí)現(xiàn)更高效的處理。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型構(gòu)建的。
在多模態(tài)理解任務(wù)中,Janus-Pro 采用 SigLIP-L 作為視覺編碼器,支持 384 x 384 像素的圖像輸入。而在圖像生成任務(wù)中,Janus-Pro 使用一個(gè)來自特定來源的分詞器,降采樣率為 16。
Janus-Pro 是先前工作 Janus 的進(jìn)階版本。具體來說,Janus-Pro 整合了優(yōu)化的訓(xùn)練策略、擴(kuò)展的訓(xùn)練數(shù)據(jù),以及更大模型規(guī)模的擴(kuò)展。通過這些改進(jìn),Janus-Pro 在多模態(tài)理解和文本到圖像指令遵循能力方面取得了顯著進(jìn)展,同時(shí)還增強(qiáng)了文本到圖像生成的穩(wěn)定性。
據(jù)官方介紹,JanusFlow 引入了一種極簡(jiǎn)架構(gòu),它將自回歸語言模型與校正流(一種最先進(jìn)的生成模型方法)相集成。研究發(fā)現(xiàn),校正流可以直接在大型語言模型框架內(nèi)進(jìn)行訓(xùn)練,無需復(fù)雜的架構(gòu)調(diào)整。大量實(shí)驗(yàn)表明,JanusFlow 在各自領(lǐng)域內(nèi)取得了與專用模型相當(dāng)甚至更好的性能,同時(shí)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中顯著優(yōu)于現(xiàn)有的統(tǒng)一方法。這項(xiàng)工作代表著朝著更高效、更通用的視覺語言模型邁進(jìn)了一步。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。