設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

紙質(zhì)說明書秒變 3D 動(dòng)畫,斯坦福大學(xué)吳佳俊最新研究入選 ECCV 2022

量子位 2022/7/30 14:40:30 責(zé)編:瀟公子

有沒有空間感差的小伙伴,每次拿到樂高說明書都不知如何下手?

這回,可以動(dòng)的樂高說明書來了!

清華姚班校友、斯坦福大學(xué)助理教授吳佳俊,帶領(lǐng)團(tuán)隊(duì)研發(fā)了一項(xiàng)能把紙上的說明書轉(zhuǎn)化為 3D 動(dòng)畫的技術(shù),目前該論文已入選 2022 年計(jì)算機(jī)視覺頂會(huì) ECCV。

看完效果圖,有網(wǎng)友直呼:這對(duì)所有年齡段的樂高愛好者都大有幫助!

3D 動(dòng)畫說明書

盡管樂高的說明書都是由專業(yè)設(shè)計(jì)師編寫的,但對(duì)于想象力差的人,不得不說,還是 3D 動(dòng)畫更香。

這一步轉(zhuǎn)化看上去容易,其實(shí)背后隱藏著兩個(gè)技術(shù)上的難題。

第一個(gè)難題是如何將紙上的 2D 圖像投影成 3D 動(dòng)畫。

研究團(tuán)隊(duì)要做的,是將任務(wù)分解為一系列可以順利、高效執(zhí)行的短步驟,通過建立一個(gè)模型,將說明書上的圖像轉(zhuǎn)換為機(jī)器可解釋的算法,以簡(jiǎn)化機(jī)器學(xué)習(xí)的任務(wù)。

正如上圖所示,要想把圖 a 轉(zhuǎn)化為圖 c,需要提取說明書中的每一個(gè)零件的圖像位置,以便搭建最終的成品。

研究面對(duì)的第二個(gè)挑戰(zhàn)是,樂高積木的形狀實(shí)在是太多變了。雖然很多基礎(chǔ)配件形狀差不多,但就像圖中的吉他頭一樣,樂高也有不少靈活又復(fù)雜的配件。而且,這些配件可能產(chǎn)生的不同組合也大大增加了機(jī)器解讀的難度:每一個(gè)搭建步驟都會(huì)形成一個(gè)新的不可知的圖像。

為了解決這兩個(gè)挑戰(zhàn),研究團(tuán)隊(duì)提出了一種新的基于機(jī)器學(xué)習(xí)的框架:手動(dòng)執(zhí)行計(jì)劃網(wǎng)絡(luò) (manual-To-executable-Plan Network, MEPNet)。其核心思想是將基于神經(jīng)網(wǎng)絡(luò)的二維關(guān)鍵點(diǎn)檢測(cè)方法與 2D-3D 匹配算法相結(jié)合,實(shí)現(xiàn)對(duì)不可見的 3D 對(duì)象的高精度預(yù)測(cè)。

MEPNet 的運(yùn)行有兩個(gè)階段。第一階段要做的,是將基礎(chǔ)形狀和新零件的 3D 模型、目標(biāo)形狀的 2D 圖像作為輸入信息,為每個(gè)零件預(yù)測(cè)一組 2D 關(guān)鍵點(diǎn)、旋轉(zhuǎn)角度和掩碼。在第二階段中,通過尋找基礎(chǔ)形狀和新零件之間的可能聯(lián)系,再將第一階段預(yù)測(cè)的 2D 關(guān)鍵點(diǎn)反向投影到 3D 圖像中。

值得一提的是,這個(gè)方法在訓(xùn)練時(shí)不需要任何 ground truth 圖像。

另外,MEPNet 的數(shù)據(jù)集表現(xiàn)優(yōu)于其他現(xiàn)有方法。與基于端到端的學(xué)習(xí)方法相比,MEPNet 保持了基于機(jī)器學(xué)習(xí)的模型效率,并可以被更好地推廣到生成未知的 3D 對(duì)象上。

最值得注意的是,MEPNet 能夠利用合成數(shù)據(jù)進(jìn)行單獨(dú)訓(xùn)練,從而應(yīng)用到真實(shí)的生活場(chǎng)景中。

目前,所有代碼和數(shù)據(jù)已開源,感興趣的小伙伴可以關(guān)注一下。

作者介紹

該篇論文來自斯坦福大學(xué)吳佳俊團(tuán)隊(duì)。作者還包括:Ruocheng Wang、Yunzhi Zhang,麻省理工大學(xué)的 Jiayuan Mao 以及 Autodesk AI Lab 的 Chin-Yi Cheng。

吳佳俊,現(xiàn)任斯坦福大學(xué)助理教授,隸屬于斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室 (SVL) 和斯坦福人工智能實(shí)驗(yàn)室 (SAIL)。在麻省理工學(xué)院完成博士學(xué)位,本科畢業(yè)于清華大學(xué)姚班,曾被譽(yù)為“清華十大學(xué)神之一”。

論文第一作者 Ruocheng Wang,碩士畢業(yè)于斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè),是吳佳俊門下的學(xué)生。本科畢業(yè)于浙江大學(xué)計(jì)算機(jī)專業(yè),還在加州大學(xué)洛杉磯分校與 Adnan Darwiche 教授一起工作過一段時(shí)間。

One More Thing

雖然整篇論文都在以樂高為例,但作者也在論文中提到,其實(shí)這項(xiàng)技術(shù)還能應(yīng)用到其他類型的組裝說明書上。好多“苦安裝久矣”的網(wǎng)友就號(hào)召趕緊推出宜家版:

不過,在一片歡呼聲中,也有網(wǎng)友提出了不同的聲音:我不知道這是驚喜還是毀了我玩樂高的樂趣。

對(duì)此,你怎么看?你是喜歡看著說明書拼樂高,還是自己發(fā)揮呢?

參考鏈接:

[1]https://cs.stanford.edu/~rcwang/projects/lego_manual/

[2]https://twitter.com/_akhaliq/status/1552118469214314496

[3]https://arxiv.org/abs/2207.12572

[4]https://jiajunwu.com/

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:樂高,說明書,動(dòng)畫視覺研究

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知