設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 學(xué)會了用“人眼”看世界,甚至連人類瞳孔的細微縮放都能模擬

量子位 2022/3/23 9:08:40 責(zé)編:長河

為了搞清楚人類是怎么看世界的,計算機開始學(xué)著“轉(zhuǎn)動眼球”了:

然后憑借轉(zhuǎn)動的眼球“搜集要觀測的信息”,再聚焦在文字或者圖像上,開始“收集數(shù)據(jù)”:

不僅能正常讀書看畫,甚至能模擬人類在無聊、興奮、緊張等各種不同情緒下的瞳孔放縮、眨眼頻率的細微變化。

事實上,這是杜克大學(xué)的研究人員最新開發(fā)的一種“虛擬眼睛”,可以精確模擬人類觀測世界的方式。這項研究目前已經(jīng)開源,并即將發(fā)表于通信類頂會 IPSN 2022 上。

通過這項研究得到的幾近真實的數(shù)據(jù),將全部反哺給計算機。

這些數(shù)據(jù)有什么用?

這種基于眼球追蹤(Eye Tracking)技術(shù)得到的數(shù)據(jù)常常被稱為眼動數(shù)據(jù),包括注視時長、眼跳、追隨運動等多個屬性。

就如我們常常將眼睛成為心靈之窗一樣,這些眼動數(shù)據(jù)能反映不少人類的真實信息。比如,瞳孔的擴張、眼跳、游移次數(shù)可以表現(xiàn)當(dāng)前主人的情緒(無聊或興奮)、注意力是否集中、對某項任務(wù)是新手或嫻熟、甚至是對某種特定語言的精通與否。

這項研究的作者之一 Maria Gorlatova 甚至表示:

(眼動數(shù)據(jù))可能無意中暴露出性別和種族偏見、我們不想讓別人知道的興趣,甚至我們自己都不了解的信息。

因此,對這些眼動數(shù)據(jù)的學(xué)習(xí)和研究,自然也就能產(chǎn)生一系列傳感應(yīng)用:包括認(rèn)知負(fù)荷估計、久坐活動識別、閱讀理解分析和情感識別。很多企業(yè)和開發(fā)者,比如微軟的 VIVE Pro Eye,已經(jīng)開始采用眼球追蹤來實現(xiàn)基于目光的新的交互和環(huán)境感知。

然而,在收集大規(guī)模的、有標(biāo)簽的眼動數(shù)據(jù)時,難免會碰到幾個問題:

  • 人類視覺行為的隨機性增加了數(shù)據(jù)收集的成本

  • 與人類受試者合作過程中可能涉及隱私侵犯問題

  • 生產(chǎn)模型訓(xùn)練所需的數(shù)據(jù)的時間成本過高(可能需要數(shù)以百計的人帶著設(shè)備不間斷地用眼數(shù)小時才能產(chǎn)生)

虛擬眼睛收集數(shù)據(jù)

如何解決上面的問題呢?杜克大學(xué)的研究團隊提出了一套受心理學(xué)啟發(fā)的模型 EyeSyn。這一模型只利用公開的圖像和視頻,就能合成任意規(guī)模大小的眼動數(shù)據(jù)集。它的整體架構(gòu)如下:

整體思路是以圖像和視頻作為輸入,并將其作為視覺刺激,以生成相應(yīng)的眼動數(shù)據(jù)。

大的架構(gòu)又由三個小模型組成:

ReadGaze 模型

模擬文本閱讀中的視覺行為。擁有一個基于文本識別的檢測模塊、一個模擬跳讀視覺行為的模擬器。

VerbalGaze 模型

模擬在口頭交流中固定在面部某個區(qū)域、以及在面部不同區(qū)域之間切換注意力的視覺行為。擁有一個面部區(qū)域跟蹤模塊、一個基于馬爾可夫鏈的注意力模型(Markov Chain-based Attention Model)。

StaticScene 和 DynamicScene 模型

模擬感知靜態(tài)和動態(tài)場景過程中的眼球運動。擁有一個基于圖像特征的顯著性檢測(Saliency Detection)模型,用以識別視覺場景中潛在的定點位置。

△動態(tài)場景中的眼動數(shù)據(jù)

基于這些構(gòu)成,EyeSyn 不需要基于已有的眼動數(shù)據(jù)進行訓(xùn)練,上崗就能直接開始工作。

并且,與傳統(tǒng)眼動數(shù)據(jù)的收集過程相比,EyeSyn 在模擬不同的眼動跟蹤設(shè)置、視覺距離、視覺刺激的渲染尺寸、采樣頻率和受試者多樣性上,也更加方便快速。

現(xiàn)在,只基于一小部分圖像和視頻,EyeSyn 就可以合成超過 180 小時的眼動數(shù)據(jù),比現(xiàn)有的基于目光的活動數(shù)據(jù)集大 18 到 45 倍:

研究人員 Maria Gorlatova 表示,“合成數(shù)據(jù)本身并不完美,但這是一個很好的起點?!?/p>

小公司不用再花費過多的時間和金錢與人類受試者合作,建立真實活動數(shù)據(jù)集,而是可以直接使用這種方法。

這種更加快速的眼動數(shù)據(jù)的生產(chǎn)方式,將使得普通的 VR、AR、還有元宇宙平臺中的相關(guān)應(yīng)用程序的制作都更加便捷。

△Maria Gorlatova

論文:

https://www.researchgate.net/publication/359050928_EyeSyn_Psychology-inspired_Eye_Movement_Synthesis_for_Gaze-based_Activity_Recognition

開源鏈接:

https://github.com/EyeSyn/EyeSynResource

參考鏈接:

https://techxplore.com/news/2022-03-simulated-human-eye-movement-aims.html

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知