武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

量子位 2024/6/21 13:28:04 責(zé)編：汪淼

評(píng)論：

AI 衛(wèi)星影像知識(shí)生成模型數(shù)據(jù)集稀缺的問(wèn)題，又有新解了。

來(lái)自武漢大學(xué)、上海 AI 實(shí)驗(yàn)室、西工大等 9 家機(jī)構(gòu)共同推出了該領(lǐng)域的大型數(shù)據(jù)集，涵蓋了 21 萬(wàn)個(gè)地理目標(biāo)和 40 萬(wàn)個(gè)目標(biāo)-關(guān)系三元組。而且像機(jī)場(chǎng)、港口、立交橋等這樣復(fù)雜地理空間場(chǎng)景，也都包括在了數(shù)據(jù)集當(dāng)中。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

具體來(lái)說(shuō)，該數(shù)據(jù)集名為 RSG，主要面向衛(wèi)星影像中的目標(biāo)檢測(cè)（OBD）和場(chǎng)景圖生成（SGG）任務(wù)。

SGG 有助于促進(jìn)模型對(duì)地理空間場(chǎng)景從感知到認(rèn)知的智能理解，但一直缺乏大幅面、超高分辨率的衛(wèi)星影像數(shù)據(jù)。

而 RSG 的出現(xiàn)很好地填補(bǔ)了這一空白，一同提出的還有基于上下文感知的逐級(jí)認(rèn)知（CAC）框架，以及配套的 SGG 工具包。

有關(guān)論文已經(jīng)在 arXiv 公開發(fā)布，相應(yīng)的數(shù)據(jù)集和工具包也已經(jīng)開源。

大幅面超高分辨率衛(wèi)星影像數(shù)據(jù)集

在衛(wèi)星影像（SAI）領(lǐng)域當(dāng)中，場(chǎng)景圖生成（SGG）技術(shù)可以促進(jìn)對(duì)地理空間場(chǎng)景從感知到認(rèn)知的智能理解。

在 SAI 中，地理目標(biāo)的尺度和縱橫比變化大，地理目標(biāo)之間（甚至是空間不相交的地理目標(biāo)之間）存在豐富的關(guān)聯(lián)，這使得 SGG 有必要在大幅面超高分辨率衛(wèi)星影像中整體進(jìn)行。

然而現(xiàn)實(shí)情況是，大幅面超高分辨率衛(wèi)星影像的 SGG 數(shù)據(jù)集比較缺乏，這無(wú)疑限制了 SGG 在 SAI 中的進(jìn)展。

又由于大幅面超高分辨率衛(wèi)星影像的復(fù)雜性，挖掘目標(biāo)-關(guān)系三元組 <目標(biāo) 1, 關(guān)系，目標(biāo) 2> 嚴(yán)重依賴于遠(yuǎn)程上下文推理，傳統(tǒng)為小幅面自然圖像設(shè)計(jì)的 SGG 模型，不能直接適用于大幅面衛(wèi)星影像。

注：下圖是大幅面超高分衛(wèi)星影像中的 SGG 示意圖，其中第一行分別展示了大幅面超高分衛(wèi)星影像的目標(biāo)檢測(cè)和場(chǎng)景圖生成結(jié)果，第二行為對(duì)應(yīng)的局部細(xì)節(jié)展示。在第二行末尾圖中，黑色箭頭表示僅依賴于孤立目標(biāo)對(duì)可預(yù)測(cè)的關(guān)系，而紅色箭頭表示需要借助上下文推斷的復(fù)雜關(guān)系。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

于是，為了解決數(shù)據(jù)集稀缺問(wèn)題，研究團(tuán)隊(duì)構(gòu)建了首個(gè)面向大幅面超高分衛(wèi)星影像的大規(guī)模場(chǎng)景圖生成數(shù)據(jù)集 RSG。

該數(shù)據(jù)集影像幅面跨越 512×768 到 27,860×31,096 像素，包含超過(guò) 21 萬(wàn)個(gè)地理目標(biāo)和超過(guò) 40 萬(wàn)個(gè)目標(biāo)-關(guān)系三元組。

RSG 數(shù)據(jù)集中目標(biāo)分布 (a) 和關(guān)系分布 (b) 統(tǒng)計(jì)

▲ RSG 數(shù)據(jù)集中目標(biāo)分布 (a) 和關(guān)系分布 (b) 統(tǒng)計(jì)

內(nèi)容上，RSG 收集了空間分辨率為 0.15-1m 范圍的衛(wèi)星影像，涵蓋了全球范圍內(nèi)與人類活動(dòng)密切相關(guān)的 11 類復(fù)雜地理空間情景。

這些場(chǎng)景包括機(jī)場(chǎng)、港口、核電站、火電站、風(fēng)力發(fā)電站、水壩和服務(wù)區(qū)、立交橋、水面橋、施工工地和體育運(yùn)動(dòng)場(chǎng)景等。

RSG 數(shù)據(jù)集中影像采樣的地理分布和示例

▲ RSG 數(shù)據(jù)集中影像采樣的地理分布和示例

在遙感領(lǐng)域?qū)＜业闹笇?dǎo)下，研究團(tuán)隊(duì)將所有地理目標(biāo)劃分為 48 個(gè)細(xì)粒度類，并使用定向邊界框（OBB）進(jìn)行精確標(biāo)注，所有關(guān)系按照 8 個(gè)大類、58 個(gè)細(xì)粒度類進(jìn)行標(biāo)注。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

提出上下文感知框架

為了進(jìn)一步實(shí)現(xiàn)大幅面超高分衛(wèi)星影像中的 SGG，研究團(tuán)隊(duì)還提出了一個(gè)基于上下文感知的逐級(jí)認(rèn)知（CAC）框架。

該框架從三個(gè)層面深入理解衛(wèi)星影像 —— 目標(biāo)檢測(cè)（OBD）、目標(biāo)對(duì)剪枝和關(guān)系預(yù)測(cè)：

在目標(biāo)檢測(cè)上，團(tuán)隊(duì)提出了“能夠靈活集成多尺度上下文的整體多類目標(biāo)檢測(cè)網(wǎng)絡(luò)（HOD-Net）”，可以檢測(cè)大幅面超高分辨率衛(wèi)星影像中的目標(biāo)；

在目標(biāo)對(duì)剪枝方面，作者則設(shè)計(jì)了“基于對(duì)抗生成的候選對(duì)生成（PPG）網(wǎng)絡(luò)”，來(lái)篩選包含高價(jià)值關(guān)系的目標(biāo)對(duì)；

在關(guān)系預(yù)測(cè)任務(wù)中，團(tuán)隊(duì)又提出了“帶有上下文感知消息傳遞（RPCM）的關(guān)系預(yù)測(cè)網(wǎng)絡(luò)”來(lái)預(yù)測(cè)候選對(duì)的關(guān)系類型。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

在 RSG 測(cè)試集上的結(jié)果表明，在目標(biāo)檢測(cè)任務(wù)中，無(wú)論是基于水平框（HBB）還是有向框（OBB）的檢測(cè)器，團(tuán)隊(duì)提出的 HOD-Net 框架都取得了總成績(jī)和多個(gè)單項(xiàng)的 SOTA。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

注釋：

1.表格中，b_b 為 boarding_bridge, l_t 表示 lattice_tower, s_l 為 ship_lock, g_d 為 gravity_dam。

2.所有實(shí)驗(yàn)都基于標(biāo)準(zhǔn)的“1x”(12epochs) 訓(xùn)練設(shè)置。

3.?表示主干網(wǎng)絡(luò)為 Swin-L，其他的主干網(wǎng)絡(luò)都為 ResNet50。

4.下劃線表示下方的方法使用該模型作為基礎(chǔ)檢測(cè)器。

同時(shí)測(cè)試結(jié)果還表明，HOD-Net 方法也優(yōu)于一些其他的訓(xùn)練方式。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

下面的圖更加直觀地展示了不同目標(biāo)檢測(cè)策略的可視化結(jié)果。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

剪枝任務(wù)上，團(tuán)隊(duì)提出的 PPG 策略也在多個(gè)模型上運(yùn)行的測(cè)試中超越了傳統(tǒng)方法。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

生成情景當(dāng)中，團(tuán)隊(duì)設(shè)計(jì)的的 RPCM 網(wǎng)絡(luò)在基于 HBB 和 OBB 檢測(cè)器的所有指標(biāo)上，同樣優(yōu)于先前的主流 SGG 方法。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

下圖是不同 SGG 模型在 RSG 數(shù)據(jù)集中情景生成結(jié)果的可視化展示。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

此外，為了促進(jìn)大幅面超高分辨率衛(wèi)星影像中 SGG 的發(fā)展，研究團(tuán)隊(duì)還發(fā)布了面向大面超高分辨率衛(wèi)星影像的 SGG 工具包（其中包含約 30 種 OBD 方法和 10 種 SGG 方法），并基于 RSG 數(shù)據(jù)集進(jìn)行了的全面基準(zhǔn)測(cè)試。

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

數(shù)據(jù)集和相關(guān)工具包都已開源，可到項(xiàng)目主頁(yè)中了解詳情。

論文地址：

https://arxiv.org/abs/2406.09410

項(xiàng)目主頁(yè)：

https://linlin-dev.github.io/project/RSG

GitHub：

https://github.com/Zhuzi24/SGG-ToolKit

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

武大等開源大幅面高清衛(wèi)星影像數(shù)據(jù)集：涵蓋 21 萬(wàn) + 地理目標(biāo)，復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成

大幅面超高分辨率衛(wèi)星影像數(shù)據(jù)集

提出上下文感知框架

相關(guān)文章