Meta 研發(fā)新方法：整合語(yǔ)言和擴(kuò)散 AI 模型，降低計(jì)算量、提高運(yùn)算效率、優(yōu)化生成圖像

2024/8/24 6:57:06 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 8 月 24 日消息，Meta AI 公司最新推出了 Transfusion 新方法，可以結(jié)合語(yǔ)言模型和圖像生成模型，將其整合到統(tǒng)一的 AI 系統(tǒng)中。

IT之家援引團(tuán)隊(duì)介紹，Transfusion 結(jié)合了語(yǔ)言模型在處理文本等離散數(shù)據(jù)方面的優(yōu)勢(shì)，以及擴(kuò)散模型在生成圖像等連續(xù)數(shù)據(jù)方面的能力。

Meta 解釋說，目前的圖像生成系統(tǒng)通常使用預(yù)先訓(xùn)練好的文本編碼器來處理輸入的提示詞，然后將其與單獨(dú)的擴(kuò)散模型結(jié)合起來生成圖像。

許多多模態(tài)語(yǔ)言模型的工作原理與此類似，它們將預(yù)先訓(xùn)練好的文本模型與用于其他模態(tài)的專用編碼器連接起來。

不過 Transfusion 采用單一、統(tǒng)一的 Transformer 架構(gòu)，適用于所有模式，對(duì)文本和圖像數(shù)據(jù)進(jìn)行端到端訓(xùn)練。文本和圖像使用不同的損失函數(shù)：文本使用下一個(gè)標(biāo)記預(yù)測(cè)，圖像使用擴(kuò)散。

Meta 研發(fā)新方法：整合語(yǔ)言和擴(kuò)散 AI 模型，降低計(jì)算量、提高運(yùn)算效率、優(yōu)化生成圖像

為了同時(shí)處理文本和圖像，圖像被轉(zhuǎn)換成圖像片段序列。這樣，模型就能在一個(gè)序列中同時(shí)處理文本標(biāo)記和圖像片段，特殊的注意力掩碼（attention mask）還能讓模型捕捉圖像內(nèi)部的關(guān)系。

有別于 Meta 現(xiàn)有的 Chameleon（將圖像轉(zhuǎn)換成離散的標(biāo)記，然后用處理文本的方式處理）等方法，Transfusion 保留了圖像的連續(xù)表示法，避免了量化造成的信息損失。

實(shí)驗(yàn)還表明，與同類方法相比，"融合" 的擴(kuò)展效率更高。在圖像生成方面，它取得了與專門模型相似的結(jié)果，但計(jì)算量卻大大減少，令人驚訝的是，整合圖像數(shù)據(jù)還提高了文本處理能力。

Meta 研發(fā)新方法：整合語(yǔ)言和擴(kuò)散 AI 模型，降低計(jì)算量、提高運(yùn)算效率、優(yōu)化生成圖像

研究人員在 2 萬(wàn)億個(gè)文本和圖像標(biāo)記上訓(xùn)練了一個(gè) 70 億參數(shù)的模型。該模型在圖像生成方面取得了與 DALL-E 2 等成熟系統(tǒng)相似的結(jié)果，同時(shí)還能處理文本。

IT之家附上參考地址

Meta's "Transfusion" blends language models and image generation into one unified model
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Meta 研發(fā)新方法：整合語(yǔ)言和擴(kuò)散 AI 模型，降低計(jì)算量、提高運(yùn)算效率、優(yōu)化生成圖像

相關(guān)文章

Meta 研發(fā)新方法：整合語(yǔ)言和擴(kuò)散 AI 模型，降低計(jì)算量、提高運(yùn)算效率、優(yōu)化生成圖像