IT之家 10 月 26 日消息,據(jù)“鵝廠技術派”消息,騰訊混元大模型近日迎來全新升級,并正式對外開放“文生圖”功能。官方宣稱,升級后的騰訊混元中文效果整體超過 GPT3.5,代碼能力大幅提升 20%,達到業(yè)界領先水平。
據(jù)介紹,大模型文生圖的難點體現(xiàn)在對提示詞的語義理解,生成內(nèi)容的合理性以及生成圖片的效果,針對這三個技術難點,騰訊進行了專項的技術研究,提出了一系列原創(chuàng)算法:
在語義理解方面,騰訊混元采用了中英文雙語細粒度的模型,模型同時建模中英文實現(xiàn)雙語理解,而不是通過翻譯,通過優(yōu)化算法提升了模型對細節(jié)的感知能力與生成效果,有效避免多文化差異下的理解錯誤。
在內(nèi)容合理性方面,AI 生成人體結構和手部經(jīng)常容易變形?;煸纳鷪D通過增強算法模型的圖像二維空間位置感知能力,并將人體骨架和人手結構等先驗信息引入到生成過程中,讓生成的圖像結構更合理,減少錯誤率。
在畫面質(zhì)感方面,混元文生圖基于多模型融合的方法,提升生成質(zhì)感。經(jīng)過模型算法的優(yōu)化之后,混元文生圖的人像模型,包含發(fā)絲、皺紋等細節(jié)的效果提升了 30%,場景模型,包含草木、波紋等細節(jié)的效果提升了 25%。
如果用戶想生成一張更接近真人感的照片,或接近實拍的圖片,可以加上“真實感”或“攝影風”等描述;如果用戶想要特定風格的圖片,建議在提示詞中加入該風格的描述,如油畫風、賽博朋克風等。此外,用戶還可以對畫面進行盡可能詳細地描述,以獲得滿意的效果。
據(jù)介紹,騰訊內(nèi)部目前已經(jīng)有多個開發(fā)平臺接入了騰訊混元大模型,已有超過 180 個內(nèi)部業(yè)務接入混元,包括騰訊會議、騰訊文檔、企業(yè)微信、騰訊廣告和微信搜一搜等。
近日,有IT之家網(wǎng)友反饋已經(jīng)通過混元大模型內(nèi)測審核,并分享了相關操作頁面。從截圖中可以看到,混元大模型支持制定面試大綱、旅行計劃、PPT 大綱、健身計劃等功能,分為工作、編程、營銷、生活等選項。
此外,混元大模型還支持 AI 對話功能,已經(jīng)通過的內(nèi)測申請的用戶可以嘗鮮一下。
IT之家附更多生成圖:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。