全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

新智元 2024/12/3 10:23:19 責(zé)編：汪淼

評論：

隨著人工智能技術(shù)的快速發(fā)展，讓機(jī)器理解并執(zhí)行復(fù)雜的空間任務(wù)成為一個重要研究方向。

在復(fù)雜的 3D 結(jié)構(gòu)組裝中，理解和執(zhí)行說明書是一個多層次的挑戰(zhàn)：從高層的任務(wù)規(guī)劃，到中層的視覺對應(yīng)，再到底層的動作執(zhí)行，每一步都需要精確的空間理解能力。

斯坦福 Vision Lab 最新推出的 IKEA Video Manuals 數(shù)據(jù)集，首次實現(xiàn)了組裝指令在真實場景中的 4D 對齊，為研究這一復(fù)雜問題提供了重要基準(zhǔn)。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

論文地址：https://arxiv.org/pdf/2411.11409
項目主頁：https://yunongliu1.github.io/ikea-video-manual/
開源代碼：https://github.com/yunongLiu1/IKEA-Manuals-at-Work

合作者指出了這項工作在空間智能研究中的重要地位：「這項工作將組裝規(guī)劃從 2D 推進(jìn)到 3D 空間，通過理解底層視覺細(xì)節(jié)（如部件如何連接），解決了空間智能研究中的一個主要瓶頸。這是首個全面評估模型在真實場景中對精細(xì) 3D 細(xì)節(jié)理解能力的基準(zhǔn)?！?/p>

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

知名科技博主、前微軟策略研究者 Robert Scoble：「有了這項工作，機(jī)器人將能夠自主組裝 IKEA 家具，或者通過 AI 驅(qū)動的 AR 眼鏡。」

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

突破性的多模態(tài)對齊

組裝一件 IKEA 家具需要理解多種形式的指令：說明書提供了任務(wù)的整體分解和關(guān)鍵步驟；視頻展示了詳細(xì)的組裝過程；而 3D 模型則定義了部件之間的精確空間關(guān)系。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

IKEA Video Manuals 首次將這三種模態(tài)進(jìn)行了細(xì)粒度的對齊：

137 個手冊步驟被根據(jù)安裝視頻細(xì)分為 1120 個具體子步驟，捕捉了完整的組裝過程；
通過 6D Pose 追蹤，精確記錄每個部件的空間軌跡；
在視頻幀、家具組裝說明書和 3D 模型之間建立密集對應(yīng)關(guān)系。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

豐富的家具類型與場景

數(shù)據(jù)集涵蓋了 6 大類 36 種 IKEA 家具，從簡單的凳子到復(fù)雜的柜子，呈現(xiàn)了不同難度的組裝任務(wù)。每種家具都包含完整的 3D 模型、組裝說明書和實際組裝視頻。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

這些視頻來自 90 多個不同的環(huán)境，包括室內(nèi)外場景、不同光照條件，真實反映了家具組裝的多樣性。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

真實世界的復(fù)雜性

與在實驗室環(huán)境下采集的數(shù)據(jù)相比，來自互聯(lián)網(wǎng)的真實視頻呈現(xiàn)了更豐富的挑戰(zhàn)：

部件經(jīng)常被手或其他物體遮擋
相似部件識別（想象一下四條一模一樣的桌子腿?。?/p>
攝像機(jī)頻繁移動、變焦，帶來參數(shù)估計的困難
室內(nèi)外場景、不同光照條件下的多樣性

這些真實場景下的復(fù)雜性，讓數(shù)據(jù)集更能反映實際應(yīng)用中的難點。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

有趣的是，研究團(tuán)隊發(fā)現(xiàn) 25% 的家具存在多種有效的組裝順序。比如 Laiva 架子就有 8 種不同的組裝方式！這種多樣性真實地反映了現(xiàn)實世界中組裝任務(wù)的靈活性。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

系統(tǒng)的標(biāo)注流程

為了獲得高質(zhì)量的標(biāo)注，應(yīng)對真實視頻帶來的挑戰(zhàn)，研究團(tuán)隊建立了一套可靠的標(biāo)注系統(tǒng)：

識別并標(biāo)注相機(jī)參數(shù)變化的關(guān)鍵幀，確保片段內(nèi)的一致性
結(jié)合 2D-3D 對應(yīng)點和 RANSAC 算法進(jìn)行相機(jī)參數(shù)估計
通過多視角驗證和時序約束保證標(biāo)注質(zhì)量

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

核心任務(wù)實驗評估

基于 IKEA Video Manuals 數(shù)據(jù)集，團(tuán)隊設(shè)計了多個核心任務(wù)來評估當(dāng)前 AI 系統(tǒng)在理解和執(zhí)行家具組裝，以及空間推理 (spatial reasoning) 方面的能力：

1. 在基于 3D 模型的分割（Segmentation）與姿態(tài)估計 (Pose Estimation)

輸入 3D 模型和視頻幀，要求 AI 完成兩個任務(wù)：準(zhǔn)確分割出特定部件區(qū)域，并估計其在視頻中的 6 自由度姿態(tài)。實驗測試了最新的分割模型 (CNOS, SAM-6D) 和姿態(tài)估計模型 (MegaPose)。

基于 3D 模型的分割

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

基于 3D 模型的姿態(tài)估計

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

分析發(fā)現(xiàn)它們在以下場景表現(xiàn)不佳：

- 遮擋問題：手部遮擋、近距離拍攝導(dǎo)致部分可見、遮擋引起的深度估計誤差

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

- 特征缺失：缺乏紋理的部件難以分割、對稱部件的方向難以判斷

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

- 特殊拍攝角度（如俯視）導(dǎo)致的尺度誤判

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

2. 視頻目標(biāo)分割 Mask Trackin

評估了 SAM2 和 Cutie 兩個最新的視頻追蹤模型。與其他基準(zhǔn)數(shù)據(jù)集相比，它們在 IKEA Video Manuals 數(shù)據(jù)集上表現(xiàn)顯著下降：

SAM2: 從其他數(shù)據(jù)集的 85-90% 降至 73.6%
Cutie: 從 85-87% 降至 54.7%

主要挑戰(zhàn)包括：

- 相機(jī)運動導(dǎo)致目標(biāo)丟失

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

- 難以區(qū)分外觀相似的部件（如多個相同的桌腿）

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

- 長時間追蹤的準(zhǔn)確度難以保持

3. 基于視頻的形狀組裝

團(tuán)隊提出了一個創(chuàng)新的組裝系統(tǒng)，包含關(guān)鍵幀檢測、部件識別、姿態(tài)估計和迭代組裝四個步驟。實驗采用兩種設(shè)置：

使用 GPT-4V 自動檢測關(guān)鍵幀：結(jié)果不理想，Chamfer Distance 達(dá) 0.55，且 1/3 的測試視頻未能完成組裝，反映 GPT-4V 對組裝關(guān)鍵時刻的識別能力有限；
使用人工標(biāo)注的關(guān)鍵幀：即便如此，由于姿態(tài)估計模型的局限性，最終 Chamfer Distance 仍達(dá) 0.33

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

這些實驗結(jié)果揭示了當(dāng)前 AI 模型的兩個關(guān)鍵局限：

1、視頻理解能力不足：當(dāng)前的視頻模型對時序信息的分析仍然較弱，往往停留在單幀圖像分析的層面
2、空間推理受限：在真實場景的復(fù)雜條件下（如光照變化、視角改變、部件遮擋等），現(xiàn)有模型的空間推理能力仍顯不足

未來展望

IKEA Video Manuals 的推出，通過研究如何將組裝指令對齊到真實場景，為空間智能研究提供了一個重要的評估基準(zhǔn)。

想象一下，未來你戴上 AR 眼鏡，就能看到 IKEA 家具的每個組裝步驟被清晰地投影在眼前，系統(tǒng)還能實時提醒你是否安裝正確；或者，機(jī)器人能夠像人類一樣，僅通過觀看視頻就學(xué)會組裝復(fù)雜的家具。IKEA Video Manuals 的推出讓這些設(shè)想離現(xiàn)實更近了一步。

通過提供真實場景下的多模態(tài)數(shù)據(jù)，這個數(shù)據(jù)集為空間智能研究提供了重要的評估基準(zhǔn)。我們期待看到更多突破性的進(jìn)展，讓 AI 系統(tǒng)真正理解和執(zhí)行復(fù)雜的空間任務(wù)。

作者介紹

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

第一作者劉雨濃，斯坦福大學(xué)計算機(jī)科學(xué)碩士生，隸屬于斯坦福 SVL 實驗室（Vision and Learning Lab），由吳佳俊教授指導(dǎo)。本科畢業(yè)于愛丁堡大學(xué)電子與計算機(jī)科學(xué)專業(yè)（榮譽學(xué)位）。曾在得克薩斯大學(xué)奧斯汀分校從事研究實習(xí)。目前正在尋找 2025 年秋季入學(xué)的博士機(jī)會。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

吳佳俊，斯坦福大學(xué)助理教授，隸屬于 SVL 和 SAIL 實驗室。麻省理工博士，清華姚班本科。作為項目指導(dǎo)教授。

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集

Juan Carlos Niebles，Salesforce AI Research 研究主任，斯坦福大學(xué)計算機(jī)科學(xué)系兼職教授，斯坦福視覺與學(xué)習(xí)實驗室（SVL）聯(lián)合主任。在計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域有杰出貢獻(xiàn)，曾獲多項重要獎項

全自動組裝家具，斯坦福發(fā)布 IKEA Video Manuals 數(shù)據(jù)集