検出トランスは最近、有望な物体検出結果を示し、ますます注目を集めています。ただし、クロスドメインのパフォーマンスを向上させるための効果的なドメイン適応技術を開発する方法は、未踏であり、不明なままです。この論文では、このトピックを掘り下げて、CNNバックボーンでの直接的な特徴分布の調整は、予測のためのトランスフォーマーのドメイン不変のシーケンス特徴を保証しないため、限られた改善しかもたらさないことを経験的に見つけました。この問題に対処するために、検出トランスの適応のために特別に設計された新しいシーケンス機能アライメント(SFA)メソッドを提案します。技術的には、SFAは、ドメインクエリベースの機能アラインメント(DQFA)モジュールとトークンごとの機能アラインメント(TDA)モジュールで構成されています。 DQFAでは、新しいドメインクエリを使用して、両方のドメインのトークンシーケンスからグローバルコンテキストを集約および調整します。 DQFAは、トランスフォーマーエンコーダーとデコーダーにそれぞれ展開するときに、グローバルな特徴表現とオブジェクト関係のドメインの不一致を減らします。一方、TDAは、両方のドメインからのシーケンスでトークン機能を調整します。これにより、トランスフォーマーエンコーダーとデコーダーのローカルおよびインスタンスレベルの機能表現のドメインギャップがそれぞれ削減されます。さらに、ロバストなオブジェクト検出のための特徴の識別可能性を強化するために、新しい二部マッチングの一貫性損失が提案されています。 3つの挑戦的なベンチマークでの実験は、SFAが最先端のドメイン適応オブジェクト検出方法よりも優れていることを示しています。コードはhttps://github.com/encounter1997/SFAで入手できます。
Detection transformers have recently shown promising object detection results and attracted increasing attention. However, how to develop effective domain adaptation techniques to improve its cross-domain performance remains unexplored and unclear. In this paper, we delve into this topic and empirically find that direct feature distribution alignment on the CNN backbone only brings limited improvements, as it does not guarantee domain-invariant sequence features in the transformer for prediction. To address this issue, we propose a novel Sequence Feature Alignment (SFA) method that is specially designed for the adaptation of detection transformers. Technically, SFA consists of a domain query-based feature alignment (DQFA) module and a token-wise feature alignment (TDA) module. In DQFA, a novel domain query is used to aggregate and align global context from the token sequence of both domains. DQFA reduces the domain discrepancy in global feature representations and object relations when deploying in the transformer encoder and decoder, respectively. Meanwhile, TDA aligns token features in the sequence from both domains, which reduces the domain gaps in local and instance-level feature representations in the transformer encoder and decoder, respectively. Besides, a novel bipartite matching consistency loss is proposed to enhance the feature discriminability for robust object detection. Experiments on three challenging benchmarks show that SFA outperforms state-of-the-art domain adaptive object detection methods. Code has been made available at: https://github.com/encounter1997/SFA.