リモート センシング画像での物体検出は、トレーニング用の大量のラベル付きデータに依存します。ただし、新しいカテゴリの数の増加とクラスの不均衡により、網羅的なアノテーションは非現実的になります。フューショット オブジェクト検出 (FSOD) は、認識された基本クラスのメタ学習を活用し、限られたラベル付きサンプルを使用して新しいクラスを微調整することで、この問題に対処します。それにもかかわらず、リモート センシング画像内の物体のスケールと方向の大幅な変動は、既存の少数ショットの物体検出方法に大きな課題をもたらします。これらの課題を克服するために、特徴ピラミッド ネットワークを統合し、プロトタイプ特徴を利用してクエリ特徴を強化し、それによって既存の FSOD 手法を改善することを提案します。この修正された FSOD アプローチを強力なベースラインと呼びます。これは、元のベースラインと比較して大幅なパフォーマンスの向上を示しています。さらに、Transformation-Invariant Network (TINet) を導入することで、クエリ画像とサポート画像の間の向きの違いによって引き起こされる空間的不整合の問題に取り組みます。 TINet は幾何学的不変性を保証し、クエリとサポート ブランチの機能を明示的に調整するため、強力なベースラインと同じ推論速度を維持しながら、さらなるパフォーマンスの向上が得られます。広く使用されている 3 つのリモート センシング物体検出データセット、つまり NWPU VHR-10.v2、DIOR、および HRRSD に関する広範な実験により、提案された方法の有効性が実証されました。
Object detection in remote sensing images relies on a large amount of labeled data for training. However, the increasing number of new categories and class imbalance make exhaustive annotation impractical. Few-shot object detection (FSOD) addresses this issue by leveraging meta-learning on seen base classes and fine-tuning on novel classes with limited labeled samples. Nonetheless, the substantial scale and orientation variations of objects in remote sensing images pose significant challenges to existing few-shot object detection methods. To overcome these challenges, we propose integrating a feature pyramid network and utilizing prototype features to enhance query features, thereby improving existing FSOD methods. We refer to this modified FSOD approach as a Strong Baseline, which has demonstrated significant performance improvements compared to the original baselines. Furthermore, we tackle the issue of spatial misalignment caused by orientation variations between the query and support images by introducing a Transformation-Invariant Network (TINet). TINet ensures geometric invariance and explicitly aligns the features of the query and support branches, resulting in additional performance gains while maintaining the same inference speed as the Strong Baseline. Extensive experiments on three widely used remote sensing object detection datasets, i.e., NWPU VHR-10.v2, DIOR, and HRRSD demonstrated the effectiveness of the proposed method.