利用 AI 打輔助,讓機器夜視能力和白天一樣清晰 ——
今天,這樣一種顛覆已有熱成像技術的新方法登上了 Nature 封面。
它來自美國普渡大學和密歇根州立大學,一作為浙大畢業(yè)的博士。
通過克服傳統(tǒng)解決方案中的“重影”問題,這種方法在基準測試中一顯巨大優(yōu)勢,不僅能像白天一樣看清環(huán)境的紋理和深度,還能感知到 RGB、熱視覺以外的各種物理信息,可謂相當利好機器感知尤其是自動駕駛行業(yè)。
而作者則認為,該成果對第四次工業(yè)革命還能直接起到加速作用。
何以見得?我們翻開論文來看。
像白天一樣清楚的夜視能力
目前比較前沿的機器感知方法是利用無處不在的熱信號來重現(xiàn)環(huán)境信息。
但是它有一個非常明顯的缺點,就是會產(chǎn)生“重影效應(ghosting effect)”。
具體而言,該效應是指由于物體和環(huán)境在不斷發(fā)射熱輻射,導致三個物理屬性,即溫度(T,物理狀態(tài))、發(fā)射率(e,材料指紋)和紋理(X,表面幾何形狀)混合在光子流中出現(xiàn)的一種現(xiàn)象(僅限于夜視情況)。
這種現(xiàn)象主要造成的是環(huán)境 / 物體的紋理缺失,如下圖所示:
只有當燈泡關閉時我們才能看到燈泡上的幾何紋理,一旦發(fā)光就完全消失,而黑體輻射不可能被“關閉”,所以也就意味著我們得到的熱圖像總是缺乏紋理,不能看到一個完全真實的黑暗世界。
在此,作者提出了一種名為 HADAR(heat-assisted detection and ranging)的方法,它以熱光子流為輸入,記錄高光譜成像熱立方體,通過 TeX 分解來解決重影效應這一挑戰(zhàn)。
作者表示,TeX 分解利用機器學習生動地從雜亂的熱信號中恢復紋理(如下圖彩色部分),并使人工智能算法能夠達到信息論的極限,而到目前為止,傳統(tǒng)的 RGB 或熱視覺辦法很難做到。
它的具體實現(xiàn)如下圖所示:
作者介紹,其架構的物理學靈感來自三個方面。
首先,熱立方體的 TeX 分解依賴于空間模式和光譜熱特征,這啟發(fā)了他們在 UNet 模型中采用光譜和金字塔(空間)注意力層。
其次,由于 TeX 的簡并性,必須指定以下數(shù)學結構來確保逆映射的唯一性(α、β 代表物體的指數(shù),v 是波數(shù)),因此必須學習熱照明系數(shù) V 而不是紋理 X。也就是說,TeX-Net 不能端到端地訓練。
最后,材料庫 M 及其維度是整個網(wǎng)絡的關鍵。
除此之外,作者還提出了一種非機器學習方法,即 TeX-SGD 來生成 TeX-vison 作為補充。
在測試中,我們能看到 HADAR 方法帶來了超高精度。
如下圖所示,第一行顯示基于原始熱圖像的測距方法由于重影導致精度很差;第二行則顯示與熱測距相比,HADAR 中恢復的紋理和增強的精度約達 100 倍;
而在下面的場景中(黑色汽車、人和愛因斯坦紙板),我們能看到:
視覺驅(qū)動的物體檢測在光學成像中(a)錯誤地識別出了兩個人和一輛汽車,而激光雷達點云(c)不但識別到兩個人還把汽車給丟了,只有 HADAR 方法能夠帶來全面的理解,準確框出一人一車。
最后這一組圖則充分證明,HADAR 在夜間的總體視覺能力優(yōu)于目前最先進的熱測距方法(GCNDepth),其 RGB 立體視覺更是和白天測試到的基本處于一個水平,即 HADAR 在黑暗中看到環(huán)境紋理和深度,就像白天一樣。
作者介紹
一作 Fanglin Bao,普渡大學研究員。他于 2011 年 6 月在浙江大學獲得物理學學士學位,2016 年 6 月獲得光學博士學位。
Fanglin Bao 之前的研究集中于非均勻系統(tǒng)中的卡西米爾效應(量子力學),目前則延伸到張量網(wǎng)絡、神經(jīng)網(wǎng)絡及其在量子物理學中的應用。
通訊作者為普渡大學電氣與計算機工程教授 Zubin Jacob,以及密歇根州立大學計算機科學與工程系助理教授 Vishnu Boddeti(后者正在招收“數(shù)學背景很強”的學生)。
論文地址:
https://www.nature.com/articles/s41586-023-06174-6
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。