【新智元導(dǎo)讀】近日,來自麻省理工的研究團隊發(fā)表了 Ddog 項目,只需一副眼鏡就可以控制四足機器人,幫助特殊人群重獲希望
還記得之前的 AI 讀心術(shù)嗎?最近,「心想事成」的能力再次進化 —— 人類可以通過自己的想法直接控制機器人了!
來自麻省理工的研究人員發(fā)表了 Ddog 項目,通過自己開發(fā)的腦機接口(BCI)設(shè)備,控制波士頓動力的機器狗 Spot。狗狗可以按照人類的想法,移動到特定區(qū)域、幫人拿東西、或者拍照等。
而且,相比于之前需要使用布滿了傳感器的頭套才能「讀心」,本次的腦機接口設(shè)備以一副無線眼鏡(AttentivU)的形式出現(xiàn)!
視頻中展示的行為也許比較簡單,但這個系統(tǒng)的目的是將 Spot 改造為能夠為患有肌萎縮側(cè)索硬化癥(ALS)、腦癱或脊髓損傷等疾病的人士提供基本溝通工具。
整個系統(tǒng)的運行只需要兩部 iPhone 和一副眼鏡,卻能給這些已經(jīng)對生活失去希望的人帶去實際的幫助和關(guān)懷。
并且,我們將在相關(guān)的論文中看到,這個系統(tǒng)實際上建立在非常復(fù)雜的工程之上。
論文地址:點此查看
Ddog 系統(tǒng)使用 AttentivU 作為腦機接口系統(tǒng),傳感器嵌入到鏡框中,用來測量一個人的腦電圖 (EEG) 或大腦活動,以及眼電圖或眼球運動。
這項研究的基礎(chǔ)是 MIT 的 Brain Switch,一種實時的閉環(huán) BCI,允許用戶與看護人進行非語言和實時的交流。
Ddog 系統(tǒng)成功率為 83.4%,并且,這是在個人助理用例中首次將無線、非視覺 BCI 系統(tǒng)與 Spot 集成。
我們可以看到腦機接口設(shè)備的進化之路,以及開發(fā)者的一些思考。
在此之前,研究團隊就已經(jīng)完成了腦機接口與智能家居的交互,而現(xiàn)在完成了控制能夠移動和操作的機器人。
這些研究給了特殊人群一絲光明,讓他們有活下去的希望,甚至未來可以生活得更好。
相比于章魚一樣的傳感器頭套,下面這個眼鏡確實酷多了。
根據(jù)美國國家罕見疾病組織的數(shù)據(jù),目前美國有 30000 名 ALS 患者,且估計每年診斷出 5000 例新病例。此外,根據(jù)《腦癱指南》,大約有 100 萬美國人患有腦癱。
這些人中的許多人已經(jīng)或最終將失去走路、穿衣、說話、寫作甚至呼吸的能力。
雖然確實存在通信輔助工具,但大多數(shù)是允許用戶使用計算機進行通信的眼睛凝視設(shè)備。允許用戶與周圍世界互動的系統(tǒng)并不多。
這種 BCI 四足機器人系統(tǒng)作為一個早期的原型,為現(xiàn)代個人助理機器人的未來發(fā)展鋪平了道路。
希望在未來的迭代中,我們能看到更加驚人的能力。
腦控四足機器人
在這項工作中,研究人員探索了無線和可穿戴 BCI 設(shè)備如何控制四足機器人 —— 波士頓動力公司的 Spot。
研究人員開發(fā)的設(shè)備通過嵌入眼鏡架中的電極測量用戶的腦電圖(EEG)和眼電圖(EOG)活動。
用戶在心中回答一系列問題(「是」或「否」),每個問答都對應(yīng)一組預(yù)置的 Spot 操作。
比如提示 Spot 穿過一個房間,拿起一個對象(如一瓶水),然后為用戶取回它。
機器人與 BCI
時至今日,腦電圖仍然是最實用和最適用的非侵入性腦機接口方法之一。
BCI 系統(tǒng)可以使用內(nèi)源性(自發(fā))或外源性(誘發(fā))信號進行控制。
在外源性腦機接口中,當(dāng)一個人注意外部刺激(如視覺或聽覺線索)時,就會出現(xiàn)誘發(fā)信號。
這種方法的優(yōu)點包括極簡的訓(xùn)練以及高達 60 位 / 分鐘的高比特率,但這需要用戶始終關(guān)注刺激,從而限制了其在現(xiàn)實生活中的適用性。而且,用戶在使用外源性 BCI 時會很快感到疲倦。
在內(nèi)源性腦機接口中,控制信號獨立于任何外部刺激產(chǎn)生,可以由用戶按需完全執(zhí)行。對于那些有感覺障礙的用戶來說,這提供了一種更自然和直觀的交互方式,用戶可以自發(fā)地向系統(tǒng)發(fā)出命令。
不過這種方法通常需要更長的訓(xùn)練時間,并且比特率較低。
使用腦機接口的機器人應(yīng)用通常適用于需要幫助的人群,它們通常包括輪椅和外骨骼。
下圖展示了截至 2023 年腦機接口和機器人技術(shù)的最新進展。
四足機器人通常用于在復(fù)雜的工作環(huán)境或國防應(yīng)用中為用戶提供支持。
最著名的四足機器人之一是波士頓動力公司的 Spot,它可以攜帶高達 15 公斤的有效載荷,并迭代繪制隧道等維護站點的地圖。房地產(chǎn)和采礦業(yè)也在采用 Spot 等四足機器人,幫助監(jiān)控具有復(fù)雜物流的工作現(xiàn)場。
本文使用移動 BCI 解決方案控制的 Spot 機器人,并基于心算任務(wù),總體架構(gòu)命名為 Ddog。
Ddog 架構(gòu)
下圖展示了 Ddog 的總體結(jié)構(gòu):
Ddog 是一個自主應(yīng)用程序,用戶能夠通過 BCI 的輸入控制 Spot 機器人,而應(yīng)用程序使用語音向用戶及其護理人員提供反饋。
該系統(tǒng)設(shè)計為完全離線或完全在線工作。在線版本具有一組更高級的機器學(xué)習(xí)模型,以及更好的微調(diào)模型,對于本地設(shè)備也更省電。
整個系統(tǒng)為真實場景而設(shè)計,并允許對大多數(shù)零件進行快速迭代。
在客戶端,用戶通過移動應(yīng)用程序與腦機接口設(shè)備(AttentivU)進行交互,該應(yīng)用程序使用低功耗藍牙(BLE)協(xié)議與設(shè)備進行通信。
用戶的移動設(shè)備與另一部控制 Spot 機器人的手機進行通信,以實現(xiàn)代理、操縱、導(dǎo)航,最終為用戶提供幫助。
手機之間的通信可以通過 Wi-Fi 或移動網(wǎng)絡(luò)。負責(zé)控制的手機建立一個 Wi-Fi 熱點,Ddog 和用戶的手機都連接到這個熱點。使用在線模式時,還可以連接到云上運行的模型。
服務(wù)端
服務(wù)器端使用 Kubernetes(K8S)集群,每個集群都部署在自己的 Virtual Private Cloud(VPC)中。
云在專用 VPC 內(nèi)工作,通常部署在更靠近最終用戶的同一可用區(qū)中,使每個服務(wù)的響應(yīng)延遲最小化。
集群中的每個容器都設(shè)計為單一用途(微服務(wù)架構(gòu)),每個服務(wù)都是一個正在運行的 AI 模型,它們的任務(wù)包括:導(dǎo)航、映射、計算機視覺、操縱、定位和代理。
映射:從不同來源收集有關(guān)機器人周圍環(huán)境信息的服務(wù)。它映射靜態(tài)的不可移動數(shù)據(jù)(一棵樹、一棟建筑物、一堵墻),但也收集隨時間變化的動態(tài)數(shù)據(jù)(一輛車、一個人)。
導(dǎo)航:基于在先前服務(wù)中收集和擴充的地圖數(shù)據(jù),導(dǎo)航服務(wù)負責(zé)在空間和時間上構(gòu)建 A 點和 B 點之間的路徑。它還負責(zé)構(gòu)建替代路線,以及估計所需的時間。
計算機視覺:從機器人攝像頭收集視覺數(shù)據(jù),并利用手機的數(shù)據(jù)增強,生成空間和時間表示。此服務(wù)還嘗試分割每個視覺點并識別對象。
云負責(zé)訓(xùn)練與 BCI 相關(guān)的模型,包括腦電圖(EEG)、眼電圖(EOG)和慣性測量單元(IMU)。
部署在手機上的離線模型運行數(shù)據(jù)收集和聚合,同時也使用 TensorFlow 的移動端模型(針對更小的 RAM 和基于 ARM 的 CPU 進行了優(yōu)化)進行實時推理。
視覺和操作
用于部署分割模型的原始版本是利用 LIDAR 數(shù)據(jù)的單個 TensorFlow 3D 模型。之后,作者將其擴展到少樣本模型,并通過運行神經(jīng)輻射場(NeRF)和 RGBD 數(shù)據(jù)的補充模型進行增強。
Ddog 收集的原始數(shù)據(jù)是從五個攝像頭匯總而來的。每個攝像頭都可以提供灰度、魚眼、深度和紅外數(shù)據(jù)。手臂的夾持器內(nèi)部還有第六個攝像頭,具有 4K 分辨率和 LED 功能,配合預(yù)訓(xùn)練的 TensorFlow 模型檢測對象。
點云由激光雷達數(shù)據(jù)以及由 Ddog 和手機的 RGBD 數(shù)據(jù)生成。數(shù)據(jù)采集完成后,通過單一坐標(biāo)系進行歸一化處理,并與匯集了所有成像和 3D 定位數(shù)據(jù)的全局狀態(tài)相匹配。
操作完全取決于安裝在 Ddog 上的機械臂夾持器的質(zhì)量,下圖的夾具由波士頓動力公司制造。
實驗中將用例限制在與預(yù)定義位置中的對象進行基本交互。
作者繪制了一個大的實驗室空間,將其設(shè)置為一個「公寓」,其中包含「廚房」區(qū)域(有一個裝有不同杯子和瓶子的托盤)、「客廳」區(qū)域(帶枕頭的小沙發(fā)和小咖啡桌),和「窗口休息室」區(qū)域。
用例的數(shù)量在不斷增長,因此覆蓋大多數(shù)用例的唯一方法是部署一個系統(tǒng)以連續(xù)運行一段時間,并使用數(shù)據(jù)來優(yōu)化此類序列和體驗。
AttentivU
腦電圖數(shù)據(jù)是從 AttentivU 設(shè)備收集的。AttentivU 眼鏡的電極由天然銀制成,根據(jù)國際 10-20 電極放置系統(tǒng),位于 TP9 和 TP10 位置。該眼鏡還包括位于鼻托的兩個 EOG 電極和一個位于 Fpz 位置的 EEG 參比電極。
這些傳感器可以提供所需的信息,并在需要時支持實時、閉環(huán)的干預(yù)。
設(shè)備具有 EEG 和 EOG 兩種模式,可用于實時捕捉注意力、參與度、疲勞和認知負荷的信號。EEG 已被用作清醒和睡眠之間過渡的神經(jīng)生理學(xué)指標(biāo),
而 EOG 基于測量眼球運動過程中由于角膜-視網(wǎng)膜偶極子特性而誘導(dǎo)的生物電信號。研究表明,眼球運動與執(zhí)行某些任務(wù)所需的記憶訪問類型相關(guān),并且是視覺參與、注意力和嗜睡的良好衡量標(biāo)準(zhǔn)。
實驗
首先將腦電圖數(shù)據(jù)分成幾個窗口。將每個窗口定義為 1 秒長的 EEG 數(shù)據(jù)持續(xù)時間,與前一個窗口有 75% 的重疊。
然后是數(shù)據(jù)預(yù)處理和清理。使用 50 Hz 陷波濾波器和通帶為 0.5 Hz 至 40 Hz 的帶通濾波器的組合對數(shù)據(jù)進行濾波,以確保消除電力線噪聲和不需要的高頻。
接下來,作者創(chuàng)建了偽影拒絕算法。如果兩個連續(xù) epoch 之間的絕對功率差大于預(yù)定義的閾值,則拒絕某個 epoch。
在分類的最后一步,作者混合使用不同的光譜波段功率比來跟蹤每個受試者基于任務(wù)的心理活動。對于 MA,該比率為(alpha / delta)。對于 WA,該比值為(delta / low Beta),對于 ME,該比值為(delta / alpha)。
然后,使用變化點檢測算法來跟蹤這些比率的變化。這些比率的突然增加或減少表明用戶精神狀態(tài)發(fā)生了變化。
對于患有 ALS 的受試者,本文的模型在 MA 任務(wù)中達到了 73% 的準(zhǔn)確率,在 WA 任務(wù)中達到了 74% 的準(zhǔn)確率,在 ME 任務(wù)中達到了 60% 的準(zhǔn)確率。
參考資料:
https://www.therobotreport.com/ddog-mit-project-connects-brain-computer-interface-spot-robot/
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。