近日,來自斯坦福、MIT、紐約大學(xué)和 Meta-FAIR 等機(jī)構(gòu)的研究人員,通過新的研究重新定義了最大流形容量表示法(MMCR)的可能性。
多視圖自監(jiān)督學(xué)習(xí)(MVSSL,或稱為聯(lián)合嵌入自監(jiān)督學(xué)習(xí))是一種強(qiáng)大的無監(jiān)督學(xué)習(xí)方法。它首先創(chuàng)建無監(jiān)督數(shù)據(jù)的多個(gè)轉(zhuǎn)換或視圖,然后以類似監(jiān)督的方式使用這些視圖來學(xué)習(xí)有用的表示。
實(shí)現(xiàn) MVSSL 的具體方法有很多,但大致可以分為四類:對比、聚類、蒸餾 / 動量、冗余減少。
在這眾多的方法中,最大流形容量表示(Maximum Manifold Capacity Representation,MMCR)是與眾不同的一類。
MMCR 不明確使用對比,不執(zhí)行聚類,不利用蒸餾,也不明確減少冗余,但效果卻可以媲美甚至超越其他領(lǐng)先的 MVSSL 方法。
而來自斯坦福、MIT、紐約大學(xué)和 Meta-FAIR 等機(jī)構(gòu)的研究人員,正在通過新的研究重新定義這個(gè)框架的可能性。
作為論文作者之一,LeCun 也發(fā)推表達(dá)了自己的觀點(diǎn):
除非使用預(yù)防機(jī)制,否則使用 SSL 訓(xùn)練聯(lián)合嵌入架構(gòu)會導(dǎo)致崩潰:系統(tǒng)學(xué)習(xí)到的表示信息不夠豐富,甚至是恒定不變的。
人們設(shè)計(jì)了多種方法來防止這種崩潰。
一類方法是樣本對比:確保不同的輸入產(chǎn)生不同的表示。
另一類是維度對比:確保表示的不同變量對輸入的不同方面進(jìn)行編碼。
兩種類型的方法都可以從信息最大化參數(shù)中派生出來:確保表示形式盡可能多的編碼有關(guān)輸入的信息。
方差-協(xié)方差正則化、MMCR 和 MCR2(來自伯克利大學(xué)馬毅團(tuán)隊(duì))都是 infomax 維度對比方法。
信息最大化維度對比方法的核心思想,是推動編碼器學(xué)習(xí)輸入的表示,使其盡可能充分地利用表示空間,就像在有限的畫布上盡可能展現(xiàn)豐富的細(xì)節(jié)。
為了更好地理解 MMCR,研究人員利用高維概率工具證明了,MMCR 可以激勵(lì)學(xué)習(xí)嵌入的對齊和均勻性。
同時(shí),這種嵌入最大化了視圖之間的互信息的下界,從而將 MMCR 的幾何視角與 MVSSL 中的信息論視角聯(lián)系起來。
為了更好地利用 MMCR,研究人員對預(yù)訓(xùn)練損失的非單調(diào)變化進(jìn)行數(shù)學(xué)預(yù)測和實(shí)驗(yàn)確認(rèn),發(fā)現(xiàn)了類似于雙下降的行為。
此外,研究人員還發(fā)現(xiàn)了計(jì)算上的 scaling law,可以將預(yù)訓(xùn)練損失預(yù)測為梯度步長、批量大小、嵌入維度和視圖數(shù)量的函數(shù)。
最終,作者證明了這個(gè)最初應(yīng)用于圖像數(shù)據(jù)的 MMCR 方法,在多模態(tài)圖像文本數(shù)據(jù)上同樣表現(xiàn)優(yōu)異。
MMCR
MMCR 由紐約大學(xué)數(shù)據(jù)科學(xué)中心(NYU Center for Data Science,CDS)的研究人員于 2023 年提出。
該方法源于神經(jīng)科學(xué)中的有效編碼假說:生物感覺系統(tǒng)通過使感覺表征適應(yīng)輸入信號的統(tǒng)計(jì)數(shù)據(jù)來優(yōu)化,例如減少冗余或維度。
最初的 MMCR 框架通過調(diào)整「流形容量」(衡量給定表示空間內(nèi)可以線性分離的對象類別數(shù)量的指標(biāo))將這一想法從神經(jīng)科學(xué)擴(kuò)展到了人工神經(jīng)網(wǎng)絡(luò)。
許多 MVSSL 方法要么明確源自信息論,要么可以從信息論的角度來理解,但 MMCR 不同。
MMCR 指出估計(jì)高維互信息已被證明是困難的,且逼近互信息可能不會改善表示。MMCR 的基礎(chǔ)在于數(shù)據(jù)流形線性可分性的統(tǒng)計(jì)力學(xué)表征。
不過 LeCun 等人的這篇工作,將 MMCR 的幾何基礎(chǔ)與信息論原理聯(lián)系起來,探索了 MMCR 的更深層次機(jī)制,并將其應(yīng)用擴(kuò)展到了多模態(tài)數(shù)據(jù),例如圖像文本對。
理論基礎(chǔ)
MMCR 源自有關(guān)線性二元分類器性能的經(jīng)典結(jié)果??紤] D 維度中的 P 點(diǎn)(數(shù)據(jù)),具有任意分配的二進(jìn)制類標(biāo)簽;線性二元分類器能夠成功對點(diǎn)進(jìn)行分類的概率是多少?
統(tǒng)計(jì)力學(xué)計(jì)算表明,在熱力學(xué)極限下,容量 α= 2 時(shí)會發(fā)生相變。MMCR 將此結(jié)果從點(diǎn)擴(kuò)展到流形:
最小化 MMCR 損失意味著最大化平均矩陣的核范數(shù)。
直觀上,完美重建意味著同一數(shù)據(jù)的所有視圖都被網(wǎng)絡(luò)映射到相同的嵌入,完美均勻性意味著嵌入均勻分布在超球面周圍。
基于對 MMCR 嵌入分布的新認(rèn)識,我們?nèi)绾螌?MMCR 的統(tǒng)計(jì)力學(xué)幾何觀點(diǎn)與信息論觀點(diǎn)聯(lián)系起來?
答案是,MMCR 激勵(lì)表示的最大化,對應(yīng)于同一數(shù)據(jù)的兩個(gè)視圖的兩個(gè)嵌入共享的互信息的下限。
考慮某些輸入數(shù)據(jù)兩個(gè)不同視圖的嵌入之間的互信息。兩個(gè)視圖之間的互信息必須至少與兩項(xiàng)之和一樣大:一個(gè)嵌入重建另一個(gè)的能力,再加上嵌入的熵:
MMCR 的雙下降
通過高維概率分析可知,預(yù)測最大流形容量表示的預(yù)訓(xùn)練損失,也應(yīng)該在其預(yù)訓(xùn)練損失中表現(xiàn)出非單調(diào)雙下降樣行為。
(雙下降:測試損失作為數(shù)據(jù)總數(shù)和模型參數(shù)數(shù)量的函數(shù)表現(xiàn)出非單調(diào)變化)。
然而,本文的分析也表明,這種類似雙下降的行為應(yīng)該發(fā)生在非典型參數(shù)(流形的數(shù)量 P 和維數(shù) D)上,而不是數(shù)據(jù)的數(shù)量和模型的參數(shù)量。
具體來說,理論預(yù)測最高的預(yù)訓(xùn)練誤差應(yīng)該恰好發(fā)生在閾值 P = D 處,預(yù)訓(xùn)練誤差落在閾值的兩側(cè)。
為了比較不同超參數(shù)對的點(diǎn)數(shù) P 和數(shù)據(jù)維度 D 之間的損失,這里使用 MMCR 預(yù)訓(xùn)練界限來定義預(yù)訓(xùn)練百分比誤差:
研究人員在 STL-10 上預(yù)訓(xùn)練了 ResNet-18,STL-10 是一個(gè)與 CIFAR-10 類似的數(shù)據(jù)集,但分辨率更高 (96x96x3),并且包含 100000 張圖像的附加未標(biāo)記分割。
掃描范圍 P:{64, 128, 256, 512, 1024} × D:{64, 128, 256, 512, 1024} × K:{2, 4, 8}(K 為視圖數(shù)),結(jié)果如上圖所示。
Compute Scaling Laws
在許多 MVSSL 方法中,更改超參數(shù)通常會導(dǎo)致預(yù)訓(xùn)練損失不相稱,從而使運(yùn)行之間的比較變得困難。
然而,MMCR 預(yù)訓(xùn)練百分比誤差產(chǎn)生的數(shù)量介于 0 和 1 之間,因此可以將不同超參數(shù)(P 和 D)時(shí)的訓(xùn)練情況放在一起比較。
執(zhí)行這樣的比較會產(chǎn)生有趣的經(jīng)驗(yàn)現(xiàn)象:計(jì)算 MMCR 預(yù)訓(xùn)練百分比誤差中的神經(jīng)縮放定律。
通過繪制在 STL-10 上預(yù)訓(xùn)練的 ResNet-18 網(wǎng)絡(luò),我們可以清楚地看到預(yù)訓(xùn)練百分比誤差的冪律縮放與所有點(diǎn)數(shù) P 、嵌入維度 D 和視圖數(shù)量 K 的計(jì)算量的關(guān)系。
一個(gè)關(guān)鍵細(xì)節(jié)是這些神經(jīng)縮放曲線突出了類似雙下降的行為:對角線子圖(P = D 時(shí))具有較高的預(yù)訓(xùn)練百分比誤差和較小的預(yù)訓(xùn)練百分比斜率。
MMCR 與多模態(tài)
考慮 OpenAI 的對比語言圖像預(yù)訓(xùn)練模型 CLIP 的設(shè)置,兩個(gè)不同的網(wǎng)絡(luò)在圖像文本標(biāo)題對上進(jìn)行預(yù)訓(xùn)練,從兩個(gè)不同的數(shù)據(jù)域 X 和 Y 獲取數(shù)據(jù)。
X 和 Y 是配對的,使得 X 中的每個(gè)示例在 Y 中都有對應(yīng)的正對,反之亦然。從 MMCR 角度來看,X 和 Y 可以理解為同一底層對象的兩個(gè)視圖。
因此,最優(yōu)變換嵌入 f (X) 和 g (Y) 應(yīng)映射到同一空間,并且我們可以利用對 MMCR 的改進(jìn)理解來訓(xùn)練這些最優(yōu)網(wǎng)絡(luò)。
與常見的 MVSSL 不同,這里的 X 和 Y 在實(shí)踐中可能代表極其不同的分布。
在上圖的圖像-文本對齊實(shí)驗(yàn)中,作者將多模態(tài) MMCR 應(yīng)用于 DataComp-Small,并將零樣本 Imagenet 性能與標(biāo)準(zhǔn) CLIP 目標(biāo)進(jìn)行比較。
可以發(fā)現(xiàn),多模態(tài) MMCR 在小批量(< 512)下表現(xiàn)優(yōu)于 CLIP。
參考資料:
https://x.com/ylecun/status/1834666512856031537
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。