騰訊混元大模型現(xiàn)已支持“文生圖”功能，將陸續(xù)向用戶開放

2023/10/26 15:17:40 來源：IT之家作者：浩渺（實習） 責編：浩渺

評論：

感謝IT之家網(wǎng)友司空哲一、心語摯友的線索投遞！

IT之家 10 月 26 日消息，據(jù)“鵝廠技術派”消息，騰訊混元大模型近日迎來全新升級，并正式對外開放“文生圖”功能。官方宣稱，升級后的騰訊混元中文效果整體超過 GPT3.5，代碼能力大幅提升 20%，達到業(yè)界領先水平。

▲ 圖源鵝廠技術派公眾號

據(jù)介紹，大模型文生圖的難點體現(xiàn)在對提示詞的語義理解，生成內(nèi)容的合理性以及生成圖片的效果，針對這三個技術難點，騰訊進行了專項的技術研究，提出了一系列原創(chuàng)算法：

在語義理解方面，騰訊混元采用了中英文雙語細粒度的模型，模型同時建模中英文實現(xiàn)雙語理解，而不是通過翻譯，通過優(yōu)化算法提升了模型對細節(jié)的感知能力與生成效果，有效避免多文化差異下的理解錯誤。
在內(nèi)容合理性方面，AI 生成人體結構和手部經(jīng)常容易變形?；煸纳鷪D通過增強算法模型的圖像二維空間位置感知能力，并將人體骨架和人手結構等先驗信息引入到生成過程中，讓生成的圖像結構更合理，減少錯誤率。
在畫面質(zhì)感方面，混元文生圖基于多模型融合的方法，提升生成質(zhì)感。經(jīng)過模型算法的優(yōu)化之后，混元文生圖的人像模型，包含發(fā)絲、皺紋等細節(jié)的效果提升了 30%，場景模型，包含草木、波紋等細節(jié)的效果提升了 25%。

▲ 圖源鵝廠技術派公眾號

如果用戶想生成一張更接近真人感的照片，或接近實拍的圖片，可以加上“真實感”或“攝影風”等描述；如果用戶想要特定風格的圖片，建議在提示詞中加入該風格的描述，如油畫風、賽博朋克風等。此外，用戶還可以對畫面進行盡可能詳細地描述，以獲得滿意的效果。

據(jù)介紹，騰訊內(nèi)部目前已經(jīng)有多個開發(fā)平臺接入了騰訊混元大模型，已有超過 180 個內(nèi)部業(yè)務接入混元，包括騰訊會議、騰訊文檔、企業(yè)微信、騰訊廣告和微信搜一搜等。

▲ 圖源IT之家網(wǎng)友

近日，有IT之家網(wǎng)友反饋已經(jīng)通過混元大模型內(nèi)測審核，并分享了相關操作頁面。從截圖中可以看到，混元大模型支持制定面試大綱、旅行計劃、PPT 大綱、健身計劃等功能，分為工作、編程、營銷、生活等選項。

此外，混元大模型還支持 AI 對話功能，已經(jīng)通過的內(nèi)測申請的用戶可以嘗鮮一下。

IT之家附更多生成圖：

▲ 圖源鵝廠技術派公眾號，下同

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

相關文章