arXiv reaDer
航空画像における任意方向のオブジェクト検出のためのタスクごとのサンプリング畳み込み
Task-wise Sampling Convolutions for Arbitrary-Oriented Object Detection in Aerial Images
任意指向物体検出 (AOOD) は、リモート センシング画像でさまざまな方向の物体を見つけて分類するために広く適用されています。ただし、AOOD モデルのローカリゼーションおよび分類タスクの一貫性のない機能は、あいまいさと低品質のオブジェクト予測につながる可能性があり、検出パフォーマンスが制限されます。この論文では、タスクワイズ サンプリング畳み込み (TS-Conv) と呼ばれる AOOD 法が提案されています。 TS-Conv は、それぞれの敏感な領域からタスクごとの特徴を適応的にサンプリングし、これらの特徴を整列させてマッピングして、より良い予測のために動的なラベル割り当てを導きます。具体的には、TS-Conv のローカリゼーション畳み込みのサンプリング位置は、空間座標に関連付けられた指向性バウンディング ボックス (OBB) 予測によって監視されます。分類畳み込みのサンプリング位置と畳み込みカーネルは、特徴の方向の堅牢性を向上させるために、さまざまな方向に従って適応的に調整されるように設計されています。さらに、最適な候補位置を選択し、TS-Conv から取得したランク付けされたタスク認識スコアに従って動的にラベルを割り当てるために、動的タスク認識ラベル割り当て (DTLA) 戦略が開発されています。複数のシーン、マルチモーダル画像、オブジェクトの複数のカテゴリをカバーするいくつかの公開データセットでの広範な実験により、提案された TS-Conv の有効性、スケーラビリティ、および優れたパフォーマンスが実証されました。
Arbitrary-oriented object detection (AOOD) has been widely applied to locate and classify objects with diverse orientations in remote sensing images. However, the inconsistent features for the localization and classification tasks in AOOD models may lead to ambiguity and low-quality object predictions, which constrains the detection performance. In this paper, an AOOD method called task-wise sampling convolutions (TS-Conv) is proposed. TS-Conv adaptively samples task-wise features from respective sensitive regions and maps these features together in alignment to guide a dynamic label assignment for better predictions. Specifically, sampling positions of the localization convolution in TS-Conv is supervised by the oriented bounding box (OBB) prediction associated with spatial coordinates. While sampling positions and convolutional kernel of the classification convolution are designed to be adaptively adjusted according to different orientations for improving the orientation robustness of features. Furthermore, a dynamic task-aware label assignment (DTLA) strategy is developed to select optimal candidate positions and assign labels dynamicly according to ranked task-aware scores obtained from TS-Conv. Extensive experiments on several public datasets covering multiple scenes, multimodal images, and multiple categories of objects demonstrate the effectiveness, scalability and superior performance of the proposed TS-Conv.
updated: Thu Feb 15 2024 09:36:15 GMT+0000 (UTC)
published: Tue Sep 06 2022 03:42:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト