Meta 發(fā)布 Sapiens 視覺模型，讓 AI 分析和理解圖片 / 視頻中人類動(dòng)作

2024/8/24 14:36:02 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 8 月 24 日消息，Meta Reality 實(shí)驗(yàn)室最新推出了名為 Sapiens 的 AI 視覺模型，適用于二維姿勢預(yù)估、身體部位分割、深度估計(jì)和表面法線預(yù)測 4 種以人為中心的基本視覺任務(wù)。

這些模型的參數(shù)數(shù)量各不相同，從 3 億到 20 億不等。它們采用視覺轉(zhuǎn)換器架構(gòu)，任務(wù)共享相同的編碼器，而每個(gè)任務(wù)有不同的解碼器頭。

二維姿勢預(yù)估：這項(xiàng)任務(wù)包括檢測和定位二維圖像中人體的關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn)通常與肘、膝和肩等關(guān)節(jié)相對應(yīng)，有助于了解人的姿勢和動(dòng)作。
身體部位分割：這項(xiàng)任務(wù)將圖像分割成不同的身體部位，如頭部、軀干、手臂和腿部。圖像中的每個(gè)像素都被歸類為屬于特定的身體部位，這對虛擬試穿和醫(yī)學(xué)成像等應(yīng)用非常有用。
深度估計(jì)：這項(xiàng)任務(wù)是估算圖像中每個(gè)像素與攝像頭的距離，從而有效地從二維圖像中生成三維圖像。這對增強(qiáng)現(xiàn)實(shí)和自動(dòng)駕駛等應(yīng)用至關(guān)重要，因?yàn)樵谶@些應(yīng)用中，了解空間布局非常重要。
表面法線預(yù)測：這項(xiàng)任務(wù)是預(yù)測圖像中表面的方向。每個(gè)像素都會(huì)分配一個(gè)法向量，表示表面朝向的方向。這些信息對于三維重建和了解場景中物體的幾何形狀非常有價(jià)值。

Meta 發(fā)布 Sapiens 視覺模型，讓 AI 分析和理解圖片 / 視頻中人類動(dòng)作

Meta 公司表示該模型可原生支持 1K 高分辨率推理，并且非常容易針對個(gè)別任務(wù)進(jìn)行調(diào)整，只需在超過 3 億張野生人類圖像上對模型進(jìn)行預(yù)訓(xùn)練即可。

即使在標(biāo)注數(shù)據(jù)稀缺或完全是合成數(shù)據(jù)的情況下，所生成的模型也能對野生數(shù)據(jù)表現(xiàn)出卓越的泛化能力。

Meta 發(fā)布 Sapiens 視覺模型，讓 AI 分析和理解圖片 / 視頻中人類動(dòng)作

IT之家附上參考地址

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

Meta 發(fā)布 Sapiens 視覺模型，讓 AI 分析和理解圖片 / 視頻中人類動(dòng)作