設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

開源 CV 數(shù)據(jù)集生成器 Kubric 火了,支持 13 類復(fù)雜 CV 任務(wù),DeepMind 谷歌 MIT 等打造

量子位 2022/3/19 20:12:04 責(zé)編:瀟公子

這年頭,AI 玩家們想找到合適的圖像數(shù)據(jù)集,簡(jiǎn)直是越來越難了。不僅數(shù)據(jù)質(zhì)量參差不齊,合適的數(shù)據(jù)類型也難找(如光流圖、深度圖等)。

為了解決這些問題,來自谷歌、MIT、DeepMind、MILA 和劍橋大學(xué)等 11 家機(jī)構(gòu)的 34 名研究人員,聯(lián)手打造了一個(gè)名叫 Kubric 的數(shù)據(jù)集生成器,不僅能自己渲染,而且圖像效果也非常真實(shí)。

不僅各種圖像數(shù)據(jù)都能做,像語義分割、深度圖或光流圖這種“特殊數(shù)據(jù)”都能一鍵生成:

還能控制渲染的真實(shí)度,渲染出的視頻可以達(dá)到以假亂真的效果:

據(jù)作者們表示,目前 Kubric 支持 13 類 CV 任務(wù)的數(shù)據(jù)類型生成,效果也不比用已有數(shù)據(jù)集訓(xùn)練出來的差。這樣的一個(gè)數(shù)據(jù)集生成器,到底要怎么上手?

可生成 13 類 CV 任務(wù)所需數(shù)據(jù)

先來看看這個(gè) Kubric 數(shù)據(jù)集生成器究竟是個(gè)啥。簡(jiǎn)單來說,它有點(diǎn)像是一個(gè)專為圖像 AI 打造的“數(shù)據(jù)車間”,基于跨平臺(tái)開源物理引擎 PyBullet 和 3D 圖像渲染軟件 Blender 打造。

其中,PyBullet 給用戶提供了一個(gè)模擬 3D 物體運(yùn)動(dòng)的平臺(tái),例如兩個(gè)球之間的彈性碰撞參數(shù)就可以用它來模擬。(當(dāng)然,除了 PyBullet 以外,也可以擴(kuò)展到其他物理引擎如 MuJoCo 上)

Blender 則是一個(gè)渲染 3D 動(dòng)畫的平臺(tái),但它的優(yōu)勢(shì)在于操作方便,而且既可以做出照片級(jí)逼真的渲染圖像,也可以輸出 3D 動(dòng)畫效果。(例如有設(shè)計(jì)師拿它設(shè)計(jì)服裝紋理)

可能這時(shí)候你會(huì)問,Kubric 相比自己手動(dòng)渲染視頻或圖像數(shù)據(jù)集,方便在哪?一方面,Kubric 自帶一系列預(yù)處理的基礎(chǔ)圖像數(shù)據(jù)庫(kù)。除了 11 個(gè)基礎(chǔ) 3D 模型以外:

還內(nèi)置了 Google Scanned Objects(GSO)室內(nèi)家具物品數(shù)據(jù)集中的一系列模型,以及包含背景、光照、材料紋理等參數(shù)的 Polyhaven 數(shù)據(jù)集,還有 ShapeNet 數(shù)據(jù)集等(包含 55 種常見的物品類型及 51300 個(gè) 3D 模型)。也就是說,如果你對(duì)渲染不太了解,也能利用內(nèi)置的數(shù)據(jù)庫(kù)快速生成想要的圖像。

另一方面,Kubric 直接提供了從“渲染數(shù)據(jù)”到輸出“AI 訓(xùn)練數(shù)據(jù)”的管道,省去了將渲染圖像轉(zhuǎn)成特殊數(shù)據(jù)(如深度圖、光流圖)、或是額外收集如視場(chǎng)、相機(jī)參數(shù)、光照等數(shù)據(jù)的麻煩。這也使得 Kubric 支持生成 13 類 CV 任務(wù)所需的圖像數(shù)據(jù),具體包括光流、NeRF、姿態(tài)估計(jì)、3D 重建等。

沒錯(cuò),即使這些生成的圖像中有 2D 也有 3D 類型,需要的數(shù)據(jù)量也從 MB 到 TB 級(jí)別不等,但 Kubric 都能滿足。嗯,作者們還專門針對(duì)各種視覺任務(wù),用 Kubric 生成的數(shù)據(jù)集一個(gè)個(gè)試了試,強(qiáng)調(diào)“用他們生成的數(shù)據(jù)集效果更好”。

△Kubric 生成的光流圖

那么,這樣的數(shù)據(jù)集生成器究竟要怎么用呢?

自帶 Python 接口

作者提供了一些簡(jiǎn)單的操作流程。在安裝之后,第一步就是創(chuàng)建默認(rèn)場(chǎng)景:

然后,再通過這兩步,分別創(chuàng)建一塊地板、和一個(gè)球體(也可以換成其他形狀):

接下來就是在場(chǎng)景中加一個(gè)照明,以及渲染攝像頭采集圖像:

導(dǎo)出文件后,就能獲取一個(gè) 3D 球體的圖像了:

△Blender 中的效果

如果需要深度圖、灰度圖等特殊圖層的話,也是幾行代碼就能搞定:

比自己手動(dòng)導(dǎo)出要更方便一些:

當(dāng)然,如果還是感覺上手較難,作者也直接提供了示例代碼,改改參數(shù)就能用:

在原基礎(chǔ)上,再加 5 行代碼就能直接運(yùn)行出動(dòng)態(tài)視頻版:

看起來,做完數(shù)據(jù)集后,即使不懂渲染的也能成為半個(gè)行家了(doge)

目前新的一批內(nèi)置數(shù)據(jù)集還在施工中,感興趣的小伙伴可以先上手試玩~

項(xiàng)目地址:

https://github.com/google-research/kubric

論文地址:

https://arxiv.org/abs/2203.03570

參考鏈接:

https://twitter.com/taiyasaki/status/1501288630697877504

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:CV數(shù)據(jù),開源,谷歌

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知