IT之家 1 月 8 日消息,聯(lián)通數(shù)據(jù)智能有限公司今日宣布開源首個完全在國產(chǎn)昇騰 AI 基礎軟硬件平臺上實現(xiàn)訓練和推理的中文原生文生圖模型 —— 元景文生圖模型。
在架構上,通過在 SDXL 架構中融合復合語言編碼模塊,實現(xiàn)了對中文長文本、多屬性對應和中文特色詞匯的精確語義理解,對應圖像的生成效果得到了極大提升。
在昇騰 AI 大規(guī)模算力集群上實現(xiàn)了中文原生文生圖模型的訓練和推理,并將模型和代碼對業(yè)界開源,以推動文生圖領域的國產(chǎn)化進程。
聯(lián)通數(shù)據(jù)智能有限公司表示,當前的文生圖主流模型以英文輸入為主,中文原生的文生圖模型研發(fā)則相對比較緩慢,這導致了模型對中文語義的理解能力不足,中文特色圖片生成能力有限。
對此,元景文生圖模型一方面將英文 CLIP 模型替換成中文 CLIP,使得模型中文短文本輸入具有更好的理解能力;同時,引入復合語言編碼架構,將基于 encoder-decoder 架構的語言模型引入了語言編碼器部分,這使得模型能支持超過 CLIP 長度限制的長文本,實現(xiàn)更準確的中文語義理解和判斷。
通過引入復合語言編碼模塊,元景文生圖模型實現(xiàn)了原生中文語義理解,避免了傳統(tǒng)的利用翻譯插件等作為中介調(diào)用英文文生圖模型的方法所帶來的中文信息損失。
同時通過引入海量中文圖文對數(shù)據(jù)進行預訓練,模型對中文專屬名詞,如鼠標-老鼠、仙鶴-吊車等英文模型易混淆的對象,以及中文菜譜等英文模型無法理解的名詞,都能夠準確理解并生成對應的圖片。
中國聯(lián)通在國產(chǎn)昇騰 AI 基礎軟硬件平臺上實現(xiàn)了元景文生圖模型從微調(diào)訓練到推理的一體化適配。在微調(diào)訓練方面,用戶可使用自定義數(shù)據(jù)集,實現(xiàn)從其它平臺至昇騰的平滑切換;在模型推理方面,接口與 Diffusers 對齊,支持單卡和多卡,單卡推理支持 UNet Cache 加速。
聯(lián)通數(shù)據(jù)智能有限公司透露,目前,元景文生圖模型已在聯(lián)通內(nèi)外部多個項目中成功應用。
目前,元景文生圖模型已在 GitHub、Hugging Face、魔搭、始智等社區(qū)全面開源,IT之家附開源地址如下:
HuggingFace:https://huggingface.co/UnicomAI/UniT2IXL
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。