設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

解決“佛跳墻、老婆餅”問題,聯(lián)通開源首個完全在國產(chǎn)昇騰 AI 平臺訓練和推理的中文原生文生圖模型“元景”

2025/1/8 18:01:41 來源:IT之家 作者:汪淼 責編:汪淼

IT之家 1 月 8 日消息,聯(lián)通數(shù)據(jù)智能有限公司今日宣布開源首個完全在國產(chǎn)昇騰 AI 基礎軟硬件平臺上實現(xiàn)訓練和推理的中文原生文生圖模型 —— 元景文生圖模型。

  • 在架構上,通過在 SDXL 架構中融合復合語言編碼模塊,實現(xiàn)了對中文長文本、多屬性對應和中文特色詞匯的精確語義理解,對應圖像的生成效果得到了極大提升。

  • 在昇騰 AI 大規(guī)模算力集群上實現(xiàn)了中文原生文生圖模型的訓練和推理,并將模型和代碼對業(yè)界開源,以推動文生圖領域的國產(chǎn)化進程。

聯(lián)通數(shù)據(jù)智能有限公司表示,當前的文生圖主流模型以英文輸入為主,中文原生的文生圖模型研發(fā)則相對比較緩慢,這導致了模型對中文語義的理解能力不足,中文特色圖片生成能力有限。

對此,元景文生圖模型一方面將英文 CLIP 模型替換成中文 CLIP,使得模型中文短文本輸入具有更好的理解能力;同時,引入復合語言編碼架構,將基于 encoder-decoder 架構的語言模型引入了語言編碼器部分,這使得模型能支持超過 CLIP 長度限制的長文本,實現(xiàn)更準確的中文語義理解和判斷。

元景中文文生圖架構

元景中文文生圖架構

通過引入復合語言編碼模塊,元景文生圖模型實現(xiàn)了原生中文語義理解,避免了傳統(tǒng)的利用翻譯插件等作為中介調(diào)用英文文生圖模型的方法所帶來的中文信息損失。

同時通過引入海量中文圖文對數(shù)據(jù)進行預訓練,模型對中文專屬名詞,如鼠標-老鼠、仙鶴-吊車等英文模型易混淆的對象,以及中文菜譜等英文模型無法理解的名詞,都能夠準確理解并生成對應的圖片。

提示詞:鼠標、老鼠(在英文中均翻譯成 mouse,易混淆)

▲ 提示詞:鼠標、老鼠(在英文中均翻譯成 mouse,易混淆)

提示詞:仙鶴、吊車(在英文中均翻譯成 crane,易混淆)

提示詞:仙鶴、吊車(在英文中均翻譯成 crane,易混淆)

提示詞:佛跳墻、老婆餅(中文特色詞匯)

提示詞:佛跳墻、老婆餅(中文特色詞匯)

提示詞:一只身體毛發(fā)黑白相間的兔子正在草叢間啃胡蘿卜

提示詞:一只身體毛發(fā)黑白相間的兔子正在草叢間啃胡蘿卜

提示詞:在綠色的森林中,隱藏著一座白色的哥特式教堂,教堂的尖塔直指藍色的天空,教堂周圍是五彩斑斕的野花和淺黃色的草坪(中文長文本)

提示詞:在綠色的森林中,隱藏著一座白色的哥特式教堂,教堂的尖塔直指藍色的天空,教堂周圍是五彩斑斕的野花和淺黃色的草坪(中文長文本)

中國聯(lián)通在國產(chǎn)昇騰 AI 基礎軟硬件平臺上實現(xiàn)了元景文生圖模型從微調(diào)訓練到推理的一體化適配。在微調(diào)訓練方面,用戶可使用自定義數(shù)據(jù)集,實現(xiàn)從其它平臺至昇騰的平滑切換;在模型推理方面,接口與 Diffusers 對齊,支持單卡和多卡,單卡推理支持 UNet Cache 加速。

聯(lián)通數(shù)據(jù)智能有限公司透露,目前,元景文生圖模型已在聯(lián)通內(nèi)外部多個項目中成功應用。

目前,元景文生圖模型已在 GitHub、Hugging Face、魔搭、始智等社區(qū)全面開源,IT之家附開源地址如下:

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知