解決“佛跳墻、老婆餅”問題，聯(lián)通開源首個完全在國產(chǎn)昇騰 AI 平臺訓練和推理的中文原生文生圖模型“元景”

2025/1/8 18:01:41 來源：IT之家作者：汪淼責編：汪淼

評論：

IT之家 1 月 8 日消息，聯(lián)通數(shù)據(jù)智能有限公司今日宣布開源首個完全在國產(chǎn)昇騰 AI 基礎(chǔ)軟硬件平臺上實現(xiàn)訓練和推理的中文原生文生圖模型 —— 元景文生圖模型。

在架構(gòu)上，通過在 SDXL 架構(gòu)中融合復合語言編碼模塊，實現(xiàn)了對中文長文本、多屬性對應(yīng)和中文特色詞匯的精確語義理解，對應(yīng)圖像的生成效果得到了極大提升。
在昇騰 AI 大規(guī)模算力集群上實現(xiàn)了中文原生文生圖模型的訓練和推理，并將模型和代碼對業(yè)界開源，以推動文生圖領(lǐng)域的國產(chǎn)化進程。

聯(lián)通數(shù)據(jù)智能有限公司表示，當前的文生圖主流模型以英文輸入為主，中文原生的文生圖模型研發(fā)則相對比較緩慢，這導致了模型對中文語義的理解能力不足，中文特色圖片生成能力有限。

對此，元景文生圖模型一方面將英文 CLIP 模型替換成中文 CLIP，使得模型中文短文本輸入具有更好的理解能力；同時，引入復合語言編碼架構(gòu)，將基于 encoder-decoder 架構(gòu)的語言模型引入了語言編碼器部分，這使得模型能支持超過 CLIP 長度限制的長文本，實現(xiàn)更準確的中文語義理解和判斷。

元景中文文生圖架構(gòu)

通過引入復合語言編碼模塊，元景文生圖模型實現(xiàn)了原生中文語義理解，避免了傳統(tǒng)的利用翻譯插件等作為中介調(diào)用英文文生圖模型的方法所帶來的中文信息損失。

同時通過引入海量中文圖文對數(shù)據(jù)進行預訓練，模型對中文專屬名詞，如鼠標-老鼠、仙鶴-吊車等英文模型易混淆的對象，以及中文菜譜等英文模型無法理解的名詞，都能夠準確理解并生成對應(yīng)的圖片。

提示詞：鼠標、老鼠（在英文中均翻譯成 mouse，易混淆）

▲ 提示詞：鼠標、老鼠（在英文中均翻譯成 mouse，易混淆）

提示詞：仙鶴、吊車（在英文中均翻譯成 crane，易混淆）

提示詞：佛跳墻、老婆餅（中文特色詞匯）

提示詞：一只身體毛發(fā)黑白相間的兔子正在草叢間啃胡蘿卜

提示詞：在綠色的森林中，隱藏著一座白色的哥特式教堂，教堂的尖塔直指藍色的天空，教堂周圍是五彩斑斕的野花和淺黃色的草坪（中文長文本）

中國聯(lián)通在國產(chǎn)昇騰 AI 基礎(chǔ)軟硬件平臺上實現(xiàn)了元景文生圖模型從微調(diào)訓練到推理的一體化適配。在微調(diào)訓練方面，用戶可使用自定義數(shù)據(jù)集，實現(xiàn)從其它平臺至昇騰的平滑切換；在模型推理方面，接口與 Diffusers 對齊，支持單卡和多卡，單卡推理支持 UNet Cache 加速。

聯(lián)通數(shù)據(jù)智能有限公司透露，目前，元景文生圖模型已在聯(lián)通內(nèi)外部多個項目中成功應(yīng)用。

目前，元景文生圖模型已在 GitHub、Hugging Face、魔搭、始智等社區(qū)全面開源，IT之家附開源地址如下：

GitHub：https://github.com/UnicomAI/UniT2IXL.git
HuggingFace：https://huggingface.co/UnicomAI/UniT2IXL
魔搭：https://www.modelscope.cn/UnicomAI/UniT2IXL.git
始智：https://wisemodel.cn/models/UnicomAI/UniT2IXL

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

解決“佛跳墻、老婆餅”問題，聯(lián)通開源首個完全在國產(chǎn)昇騰 AI 平臺訓練和推理的中文原生文生圖模型“元景”

相關(guān)文章

解決“佛跳墻、老婆餅”問題，聯(lián)通開源首個完全在國產(chǎn)昇騰 AI 平臺訓練和推理的中文原生文生圖模型“元景”