近日,一項(xiàng)研究聲稱能夠用 Stable Diffusion 將大腦活動重建為高分辨率、高精確度的圖像。相關(guān)論文被 CVPR 2023 接收,引起網(wǎng)友嘩然,AI 讀腦已經(jīng)近在咫尺?
即便沒有霍格沃茨的魔法,也能看到別人在想什么了!
方法很簡單,基于 Stable Diffusion 便可視化大腦圖像。
比如,你看到的小熊、飛機(jī)、火車是這樣的。
當(dāng) AI 看到大腦信號后,生成的圖像是下面的樣子,可見該有的要點(diǎn)全有了。
這個 AI 讀腦術(shù)剛剛被 CVPR 2023 接收,讓圈友們瞬間「顱內(nèi)高潮」。
太野了!忘了提示工程吧,現(xiàn)在你只需要用腦子去「想」那些畫面就行了。
想象一下,用 Stable Diffusion 從 fMRI 數(shù)據(jù)中重建視覺圖像,或許意味著未來可能發(fā)展為非入侵式的腦機(jī)接口。
讓 AI 直接跳過人類語言,感知人類大腦中所思所想。
到時候,馬斯克搞的 Neuralink 也要追趕這一 AI 天花板了。
無需微調(diào),用 AI 直接復(fù)現(xiàn)你在想什么
那么,AI 讀腦究竟如何實(shí)現(xiàn)?
最新研究來自日本大阪大學(xué)的研究團(tuán)隊(duì)。
大阪大學(xué)前沿生物科學(xué)研究生院和日本 NICT 的 CiNet 的研究人員基于潛在的擴(kuò)散模型(LDM),更具體地說,通過 Stable Diffusion 從 fMRI 數(shù)據(jù)中重建視覺體驗(yàn)。
整個運(yùn)作過程的框架也非常簡單:1 個圖像編碼器、1 個圖像解碼器,還有 1 個語義解碼器。
通過這樣做,該團(tuán)隊(duì)消除了訓(xùn)練和微調(diào)復(fù)雜人工智能模型的需要。
所有需要訓(xùn)練的是簡單的線性模型,將下部和上部視覺腦區(qū)的 fMRI 信號映射到單個 Stable Diffusion 成分。
具體來說,研究人員將大腦區(qū)域映射為圖像和文本編碼器的輸入。下部腦區(qū)被映射到圖像編碼器,上部腦區(qū)被映射到文本編碼器。如此一來可以這讓該系統(tǒng)能夠使用圖像組成和語義內(nèi)容進(jìn)行重建。
首先是解碼分析。研究中采用的 LDM 模型,由圖像編碼器 ε、圖像解碼器 D、文本編碼器 τ 組成。
研究者分別從早期和高級視覺皮層的 fMRI 信號中解碼出重建圖像 z 以及相關(guān)文本 c 的潛在表征,將其作為輸入,由自動編碼器生成復(fù)現(xiàn)出的圖像 Xzc。
接著,研究者還建立了一個編碼模型,對來自 LDM 不同組件的 fMRI 信號進(jìn)行預(yù)測,從而探索 LDM 的內(nèi)部運(yùn)作機(jī)制。
研究人員使用來自自然場景數(shù)據(jù)集(NSD)的 fMRI 圖像進(jìn)行實(shí)驗(yàn),并測試他們是否能使用 Stable Diffusion 來重建受試者看到的東西。
可以看到,編碼模型與 LDM 相關(guān)潛像預(yù)測精度,最后一種模型在大腦后部視覺皮層產(chǎn)生的預(yù)測精確度是最高的。
對一個主體的視覺重建結(jié)果顯示,只用 z 重建的圖像在視覺上與原始圖像一致,但不能捕捉到語義內(nèi)容。
而只用 c 重建的圖像具有較好的語義保真度,但視覺一致性較差,使用 zc 重建的圖像則可以同時具備高語義保真度和高分辨率。
來自所有受試者對同一圖像的重建結(jié)果顯示,重建的效果在不同受試者之間是穩(wěn)定且比較準(zhǔn)確的。
而在具體細(xì)節(jié)方面的差異,可能來源于不同個體感知經(jīng)驗(yàn)或者數(shù)據(jù)質(zhì)量的不同,而非是重建過程有誤。
最后,定量評估的結(jié)果被繪制成圖表。
種種結(jié)果顯示,研究中采用的方法不僅可以捕捉到低層次的視覺外觀,而且還能捕捉到原始刺激物的高層次語義內(nèi)容。
由此看來,實(shí)驗(yàn)表明圖像和文本解碼的結(jié)合提供了準(zhǔn)確的重建。
研究人員表示,受試者之間在準(zhǔn)確性方面存在差異,但這些差異與 fMRI 圖像的質(zhì)量相關(guān)。根據(jù)該團(tuán)隊(duì)的說法,重建的質(zhì)量與目前 SOTA 的方法相當(dāng),但不需要訓(xùn)練其中用到的 AI 模型。
與此同時,該團(tuán)隊(duì)還利用從 fMRI 數(shù)據(jù)中得出的模型來研究 Stable Diffusion 的各個構(gòu)建塊,例如語義內(nèi)容是如何在逆向擴(kuò)散過程中產(chǎn)生的,或者在 U-Net 中發(fā)生什么過程。
在去噪過程的早期階段,U-Net 的瓶頸層(橙色)產(chǎn)生最高的預(yù)測性能,隨著去噪過程的進(jìn)行,早期層(藍(lán)色)進(jìn)行對早期視覺皮層活動的預(yù)測,瓶頸層則轉(zhuǎn)向高級視覺皮層。
這也就是說,在擴(kuò)散過程剛開始時,圖像信息壓縮在瓶頸層中,伴隨著去噪,U-Net 層之間的分離出現(xiàn)在視覺皮層中。
此外,該團(tuán)隊(duì)正在對擴(kuò)散不同階段的圖像轉(zhuǎn)換進(jìn)行定量解釋。通過這種方式,研究人員旨在從生物學(xué)的角度為更好地理解擴(kuò)散模型做出貢獻(xiàn),這些模型被廣泛使用,但人們對它們的理解仍然很有限。
人腦畫面,早被 AI 解碼了?
多年來,研究人員一直在使用人工智能模型來解碼來自人類大腦的信息。
大多數(shù)方法的核心,通過使用預(yù)先錄制的 fMRI 圖像作為文本或圖像的生成性 AI 模型的輸入。
例如,在 2018 年初,一組來自日本的研究人員展示了一個神經(jīng)網(wǎng)絡(luò)如何從 fMRI 錄音中重建圖像。
2019 年,一個小組從猴子的神經(jīng)元中重建了圖像,Meta 的研究小組在 Jean-Remi King 的領(lǐng)導(dǎo)下,發(fā)表了新的工作,例如從 fMRI 數(shù)據(jù)中得出文本。
2022 年 10 月,德克薩斯大學(xué)奧斯汀分校的一個團(tuán)隊(duì)表明,GPT 模型可以從 fMRI 掃描中推斷出描述一個人在視頻中看到的語義內(nèi)容的文本。
2022 年 11 月,新加坡國立大學(xué)、香港中文大學(xué)和斯坦福大學(xué)的研究人員使用了 MinD-Vis 擴(kuò)散模型從 fMRI 掃描中重建圖像,其準(zhǔn)確性明顯高于當(dāng)時的可用方法。
再往前倒推的話,有網(wǎng)友指出了「根據(jù)腦電波生成圖像至少從 2008 年開始就有了,以某種方式暗示著 Stable Diffusion 能夠讀懂人的思想,簡直太荒謬了。」
這項(xiàng)由加利福尼亞大學(xué)伯克利分校發(fā)表在 Nature 的論文稱,利用視覺解碼器可以將人的腦電波活動轉(zhuǎn)換成圖像。
要說追溯歷史,還有人直接拿出 1999 年,斯坦福李飛飛的一項(xiàng)關(guān)于從大腦皮層重建圖像的研究。
李飛飛也動手點(diǎn)評轉(zhuǎn)發(fā),稱自己那時還是一名大學(xué)實(shí)習(xí)生。
還有 2011 年,UC 伯克利的一項(xiàng)研究使用功能磁共振成像(fMRI)和計算模型,初步重建了大腦的「動態(tài)視覺圖像」。
也就是說,他們重現(xiàn)了人們看過的片段。
但是相比起最新研究,這項(xiàng)重建完全稱不上「高清」,幾乎無法辨認(rèn)。
作者介紹
Yu Takagi
Yu Takagi 是大阪大學(xué)的一名助理教授。他的研究興趣是計算神經(jīng)科學(xué)和人工智能的交叉領(lǐng)域。
在博士期間,他在 ATR 腦信息交流研究實(shí)驗(yàn)室研究使用功能性磁共振成像(fMRI)從全腦功能連接預(yù)測不同個體差異的技術(shù)。
最近,他在牛津大學(xué)的牛津人腦活動中心和東京大學(xué)的心理學(xué)系,利用機(jī)器學(xué)習(xí)技術(shù)了解復(fù)雜決策任務(wù)中的動態(tài)計算。
Shinji Nishimoto
Shinji Nishimoto 是大阪大學(xué)的教授。他的研究方面是對大腦中視覺和認(rèn)知處理的定量理解。
更具體地說,Nishimoto 教授團(tuán)隊(duì)的研究重點(diǎn)是通過建立自然感知和認(rèn)知條件下誘發(fā)的大腦活動的預(yù)測模型來理解神經(jīng)處理和代表。
有網(wǎng)友問作者,這項(xiàng)研究能否用于解夢?
「將同樣的技術(shù)應(yīng)用于睡眠期間的大腦活動是可能的,但這種應(yīng)用的準(zhǔn)確性目前還不清楚。」
看過這項(xiàng)研究后:攝神取念術(shù)(Legilimency)妥妥的有了。
參考資料:
https://sites.google.com/view/stablediffusion-with-brain/
https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。