最新の検出トランスフォーマー (DETR) は、従来の 2 段階のオブジェクト検出器で採用されていた手作りの設計とハイパーパラメーターを削除することで、オブジェクト検出パイプラインを簡素化します。ただし、ドメイン適応オブジェクト検出でシンプルかつ効果的な DETR アーキテクチャを活用する方法は、ほとんど無視されています。独自の DETR 注意メカニズムに着想を得て、ラベル付きソース ドメインからラベルなしターゲット ドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出トランスフォーマーである DA-DETR を設計します。 DA-DETR は、CNN の機能と Transformer の機能を巧みに融合させて、ドメイン間の効果的な機能の調整と知識の伝達を行う新しい CNN-Transformer Blender (CTBlender) を導入します。具体的には、CTBlender は Transformer 機能を使用して複数のスケールにわたって CNN 機能を調整し、高レベルのセマンティック情報と低レベルの空間情報を融合して正確なオブジェクトの識別と位置特定を行います。広範な実験により、DA-DETR は、広く採用されている複数のドメイン適応ベンチマークで一貫して優れた検出性能を達成することが示されています。
The recent detection transformer (DETR) simplifies the object detection pipeline by removing hand-crafted designs and hyperparameters as employed in conventional two-stage object detectors. However, how to leverage the simple yet effective DETR architecture in domain adaptive object detection is largely neglected. Inspired by the unique DETR attention mechanisms, we design DA-DETR, a domain adaptive object detection transformer that introduces information fusion for effective transfer from a labeled source domain to an unlabeled target domain. DA-DETR introduces a novel CNN-Transformer Blender (CTBlender) that fuses the CNN features and Transformer features ingeniously for effective feature alignment and knowledge transfer across domains. Specifically, CTBlender employs the Transformer features to modulate the CNN features across multiple scales where the high-level semantic information and the low-level spatial information are fused for accurate object identification and localization. Extensive experiments show that DA-DETR achieves superior detection performance consistently across multiple widely adopted domain adaptation benchmarks.