<dfn id="la2rx"><strong id="la2rx"></strong></dfn>

<table id="la2rx"></table>

首頁

設置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像 / 視頻每一個角落

2025/4/24 13:40:26 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 4 月 24 日消息，科技媒體 marktechpost 昨日（4 月 23 日）發(fā)布博文，報道稱英偉達為應對圖像和視頻中特定區(qū)域的詳細描述難題，最新推出了 Describe Anything 3B（DAM-3B）AI 模型。

視覺-語言模型（VLMs）在生成整體圖像描述時表現出色，但對特定區(qū)域的細致描述往往力不從心，尤其在視頻中需考慮時間動態(tài)，挑戰(zhàn)更大。

英偉達推出的 Describe Anything 3B（DAM-3B）直面這一難題，支持用戶通過點、邊界框、涂鴉或掩碼指定目標區(qū)域，生成精準且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動態(tài)視頻，模型已在 Hugging Face 平臺公開。

獨特架構與高效設計

DAM-3B 的核心創(chuàng)新在于“焦點提示”和“局部視覺骨干網絡”。

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像 / 視頻每一個角落

焦點提示技術融合了全圖信息與目標區(qū)域的高分辨率裁剪，確保細節(jié)不失真，同時保留整體背景。

局部視覺骨干網絡則通過嵌入圖像和掩碼輸入，運用門控交叉注意力機制，將全局與局部特征巧妙融合，再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領域，通過逐幀編碼區(qū)域掩碼并整合時間信息，即便面對遮擋或運動也能生成準確描述。

數據與評估雙管齊下

為解決訓練數據匱乏問題，NVIDIA 開發(fā)了 DLC-SDP 半監(jiān)督數據生成策略，利用分割數據集和未標注的網絡圖像，構建了包含 150 萬局部描述樣本的訓練語料庫。

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像 / 視頻每一個角落

通過自訓練方法優(yōu)化描述質量，確保輸出文本的高精準度，團隊同時推出 DLC-Bench 評估基準，以屬性級正確性而非僵硬的參考文本對比衡量描述質量。

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像 / 視頻每一個角落

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準測試中領先，平均準確率達 67.3%，超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補了局部描述領域的技術空白，其上下文感知架構和高質量數據策略還為無障礙工具、機器人技術及視頻內容分析等領域開辟了新可能。

IT之家附上參考地址

Describe Anything: Detailed Localized Image and Video Captioning
Hugging Face
項目頁面

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關文章

關鍵詞：英偉達，AI，模型

軟媒旗下網站： IT之家最會買 - 返利返現優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機APP應用魔方最會買要知

<ul id="9glxg"><b id="9glxg"></b></ul>

<menu id="9glxg"></menu>

<em id="9glxg"><b id="9glxg"></b></em>