根據(jù)外媒 IEEE Spectrum 報(bào)道,Meta 公司的研究人員發(fā)表了一系列關(guān)于 MAE(masked auto-encoder,掩碼自編碼器)的新論文。MAE 系統(tǒng)可以通過 SSL 技術(shù)(self-supervised learning,自主監(jiān)督學(xué)習(xí))預(yù)測(cè)數(shù)據(jù)中缺失的部分,進(jìn)而還原殘缺的文本、圖像、視頻和音頻。
MAE 系統(tǒng)還原不同類型文件的通用原理,就是根據(jù)已有信息預(yù)測(cè)缺失內(nèi)容,再用其它數(shù)據(jù)彌補(bǔ)。
通過這項(xiàng)技術(shù),AI 或許能夠自動(dòng)進(jìn)行數(shù)據(jù)標(biāo)注(ground truth),而不用再通過人工標(biāo)注。這就意味著,AI 模型的學(xué)習(xí)效率得到很大提升,這或許為 AI 模型的未來發(fā)展帶來了新思路。
一、智力的本質(zhì)是預(yù)測(cè)能力,SSL 技術(shù)可以提升 AI 智能水平
MAE 系統(tǒng)使用了 SSL 技術(shù)(Self-supervised Learning,自監(jiān)督學(xué)習(xí))。SSL 是指用于機(jī)器學(xué)習(xí)的標(biāo)注源于數(shù)據(jù)本身,而非來自人工標(biāo)注的一種技術(shù)。
MAE 系統(tǒng)可以從非常零散的殘缺數(shù)據(jù)中預(yù)測(cè)出丟失的那些部分,從而還原圖像、視頻和音頻。而這就是 MAE 系統(tǒng)構(gòu)建“世界模型”(world models)的過程。
Meta 的首席 AI 科學(xué)家揚(yáng)?勒昆(Yann LeCun)說:“SSL 技術(shù)是 AI 系統(tǒng)構(gòu)建‘世界模型’(world models)的前提條件。只有具備 SSL 功能后,AI 才能夠像人類一樣具備理性和常識(shí),獲得知識(shí)遷移的能力,適應(yīng)不同環(huán)境?!睋P(yáng)?勒昆表示,如果 MAE 系統(tǒng)可以預(yù)測(cè)數(shù)據(jù)中丟失的那部分,這就意味著 AI 能夠理解世界是三維的,擁有一定程度的分辨能力,才有可能預(yù)測(cè)人的復(fù)雜行為。
揚(yáng)?勒昆(Yann LeCun)告訴外媒 IEEE Spectrum:“我們想創(chuàng)造能像動(dòng)物和人類一樣進(jìn)行自主學(xué)習(xí)的 AI 模型。”揚(yáng)?勒昆認(rèn)為,智力的本質(zhì)就是一種預(yù)測(cè)能力。這個(gè)觀點(diǎn)得到 2018 年圖靈獎(jiǎng)得主本吉奧(Yoshua Bengio)的認(rèn)可,本吉奧也認(rèn)為對(duì)世界進(jìn)行推理預(yù)測(cè)的能力是智力的關(guān)鍵。
▲ 左邊是提供給 MAE 模型的訓(xùn)練圖,中間是預(yù)測(cè)結(jié)果,右邊是原圖
二、填字游戲新玩法?AI 幫你補(bǔ)全畫面
Meta 的 AI 部門的研究人員羅斯?吉爾??耍≧oss Girshick)與人合著了一篇關(guān)于 MAE 系統(tǒng)原理的論文。論文中提到,Meta 的 MAE 系統(tǒng)建立在一種叫 Transformer 的神經(jīng)網(wǎng)絡(luò)算法上。Transformer 是一類基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)算法。這種算法可以讓 AI 模型減少對(duì)外部信息的依賴,捕捉數(shù)據(jù)或特征的內(nèi)部關(guān)系,優(yōu)化模型訓(xùn)練結(jié)果。
▲ 關(guān)于 MAE 原理的論文
在處理文本數(shù)據(jù)時(shí),MAE 系統(tǒng)將會(huì)檢測(cè)一個(gè)缺乏某些數(shù)據(jù)的文本數(shù)據(jù)庫。MAE 系統(tǒng)檢測(cè)到這些缺失的文本后,會(huì)用新的文本塊補(bǔ)充丟失的內(nèi)容。
這一技術(shù)同樣可以遷移到 MAE 系統(tǒng)對(duì)靜態(tài)圖像的處理上。研究人員將圖像分解成多個(gè)補(bǔ)?。╬atch)塊,再讓 MAE 系統(tǒng)彌補(bǔ)缺失的圖像。羅斯?吉爾希克(Ross Girshick)說,這一點(diǎn)是受到了谷歌關(guān)于 ViT 模型(Vision Transformer)的啟發(fā)。
ViT 模型(Vision Transformer) 的基本原理就是將 Transformer 架構(gòu)應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域。具體而言,ViT 模型可以將圖片切分為相同大小的補(bǔ)丁塊,給每個(gè)補(bǔ)丁塊編碼后再組成圖像序列,機(jī)器可以識(shí)別這種圖像序列?;谶@種啟發(fā),MAE 系統(tǒng)在預(yù)測(cè)缺失的圖像時(shí),會(huì)把圖像分解成很多小補(bǔ)丁塊,再用新的補(bǔ)丁塊填充丟失的內(nèi)容。
三、文本和圖像信息密度不同,遮蓋 75% 圖像實(shí)驗(yàn)結(jié)果最好
該團(tuán)隊(duì)發(fā)現(xiàn),因?yàn)槲谋竞蛨D像的信息密度不同,文本和圖像得到最佳還原效果所需遮蓋的數(shù)據(jù)比例也不同。MAE 系統(tǒng)還原靜態(tài)圖像時(shí),掩蓋 75% 的數(shù)據(jù)會(huì)得到相對(duì)最好的結(jié)果。但對(duì)于文本而言,這個(gè)數(shù)字是 15%。
▲ 研究人員發(fā)現(xiàn),遮蓋 75% 的圖像實(shí)驗(yàn)結(jié)果最好
語言是人類生成的具有高度語義和信息密集度的符號(hào)。每個(gè)字符都包含了很多含義,如果句子中丟失的單詞過多,那么 MAE 模型會(huì)預(yù)測(cè)出很多種結(jié)果,準(zhǔn)確率不高。與此對(duì)應(yīng),圖像是具有大量空間冗余的自然符號(hào)。例如,在同一張圖片上,區(qū)域相近的圖片像素特征相差不大,所以通過模型可以從相鄰的圖像塊中恢復(fù)丟失的圖片信息。
羅斯?吉爾??私忉屨f,MAE 系統(tǒng)包含兩個(gè)工作步驟。首先,MAE 系統(tǒng)會(huì)使用編碼器通過數(shù)據(jù)集學(xué)習(xí)像素之間的關(guān)系。然后,MAE 系統(tǒng)會(huì)使用解碼器從蒙版開始重建原始圖像。這兩部分完成后,MAE 系統(tǒng)會(huì)丟棄編碼器,轉(zhuǎn)而使用解碼器用于分類和目標(biāo)檢測(cè)等視覺任務(wù)。
羅斯?吉爾希克說:“MAE 系統(tǒng)的解碼器可以完成物體識(shí)別等任務(wù),這對(duì)我們而言是巨大的收獲?!边@意味著,通過 MAE 系統(tǒng),機(jī)器可以自動(dòng)為數(shù)據(jù)標(biāo)注(ground truth),而不用人工標(biāo)注數(shù)據(jù)。
四、MAE 系統(tǒng)可節(jié)省 95% 的視頻計(jì)算成本
當(dāng) MAE 系統(tǒng)用于處理視頻時(shí),研究人員會(huì)遮蓋每幀畫面中 95% 的數(shù)據(jù)信息。視頻的幀與幀之間有很高的相似性,這意味著視頻比靜態(tài)圖像有更多的信息冗余。Meta 研究人員 Christoph Feichtenhofer 說,通過這種方法,MAE 系統(tǒng)可以減少 95% 的計(jì)算成本,這就是 MAE 系統(tǒng)在視頻計(jì)算上的一大優(yōu)勢(shì)。他還說,這個(gè)技術(shù)或許可以用于 Facebook 和 Instagram 上的內(nèi)容審核和任務(wù)分類。
而對(duì)于音頻的 AI 學(xué)習(xí),Meta AI 團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的方法。他們把音頻文件轉(zhuǎn)化為了聲譜圖,換言之,他們把聲音轉(zhuǎn)化成了圖像。然后他們會(huì)再用與圖像相同的處理方法,把聲譜圖的補(bǔ)丁掩蓋起來再進(jìn)行訓(xùn)練。盡管該模型目前只能處理幾秒鐘的音頻片段,但已經(jīng)取得了很好的效果。
音頻系統(tǒng)的工作人員 Bernie Huang 說,這項(xiàng)技術(shù)在音頻上的潛在應(yīng)用包括音頻分類、改善語音通話、更好地找到壓縮音頻文件的方法等。
▲ MAE 框架
結(jié)語:MAE 系統(tǒng)或有更大應(yīng)用空間,但要謹(jǐn)慎考慮準(zhǔn)確性
MAE 系統(tǒng)可以預(yù)測(cè)殘缺數(shù)據(jù)中缺失的部分,進(jìn)而還原文本、圖片、視頻和音頻。
這個(gè)技術(shù)有很大的想象空間和應(yīng)用潛力,例如復(fù)原考古遺跡照片、彌補(bǔ)數(shù)據(jù)丟失的歷史文件等。MAE 系統(tǒng)不僅可能在 AI 領(lǐng)域獲得突破,而且也可能為其它領(lǐng)域帶來驚喜。
但是 MAE 模型也有缺點(diǎn),基于目前實(shí)驗(yàn)的準(zhǔn)確性不可能達(dá)到 100%,該模型可能會(huì)生成并不存在的內(nèi)容。人們?cè)谑褂?MAE 模型還原數(shù)據(jù)時(shí),需要謹(jǐn)慎考慮和研究這些問題。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。