arXiv reaDer
Improving Visual Relation Detection using Depth Maps
視覚的関係の検出方法は、2D境界ボックス、特徴マップ、予測されたクラス確率などのRGB画像から抽出されたオブジェクト情報に依存しています。デプスマップは、オブジェクトの関係に関する貴重な情報をさらに提供できると主張します。たとえば、後ろに立つなどの空間的関係だけでなく、保持などの非空間的関係も検出するのに役立ちます。この作業では、深度マップに焦点を当てて、さまざまなオブジェクトフィーチャを使用した場合の効果を調査します。この調査を可能にするために、ビジュアルゲノム(VG)の拡張として、深度マップの新しい合成データセットVG-Depthをリリースします。また、VG内の関係の分布が非常に不均衡であるため、視覚的な関係検出の一般的な評価指標では、過小評価されている関係の改善を明らかにできないことにも注意してください。この問題に対処するために、Macro Recall @ Kと呼ばれる追加のメトリックを使用することを提案し、VGでのその優れたパフォーマンスを示します。最後に、私たちの実験では、シンプルでありながら競争力のあるフレームワーク内で深度マップを効果的に利用することにより、視覚的関係の検出のパフォーマンスを最大8%のマージンで改善できることを確認しています。
Visual relation detection methods rely on object information extracted from RGB images such as 2D bounding boxes, feature maps, and predicted class probabilities. We argue that depth maps can additionally provide valuable information on object relations, e.g. helping to detect not only spatial relations, such as standing behind, but also non-spatial relations, such as holding. In this work, we study the effect of using different object features with a focus on depth maps. To enable this study, we release a new synthetic dataset of depth maps, VG-Depth, as an extension to Visual Genome (VG). We also note that given the highly imbalanced distribution of relations in VG, typical evaluation metrics for visual relation detection cannot reveal improvements of under-represented relations. To address this problem, we propose using an additional metric, calling it Macro Recall@K, and demonstrate its remarkable performance on VG. Finally, our experiments confirm that by effective utilization of depth maps within a simple, yet competitive framework, the performance of visual relation detection can be improved by a margin of up to 8%.
updated: Sat Oct 17 2020 13:58:38 GMT+0000 (UTC)
published: Thu May 02 2019 21:14:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト