arXiv reaDer
空間認識およびセマンティック認識のトークンアラインメントに基づくクロスドメイン検出トランスフォーマー
Cross-domain Detection Transformer based on Spatial-aware and Semantic-aware Token Alignment
DETRのような検出トランスフォーマーは、最近、多くのオブジェクト検出タスクで有望なパフォーマンスを示していますが、これらのメソッドの一般化機能は、クロスドメイン適応シナリオでは依然として非常に困難です。クロスドメインの問題に対処するための簡単な方法は、トランスフォーマーの敵対的なトレーニングでトークンの調整を実行することです。ただし、検出トランスフォーマーのトークンは非常に多様であり、さまざまな空間情報と意味情報を表すため、そのパフォーマンスはしばしば不十分です。本論文では、クロスドメイン検出トランスのための空間認識およびセマンティック認識トークンアラインメント(SSTA)と呼ばれる新しい方法を提案します。特に、検出トランスフォーマーで使用されるクロスアテンションの特性を利用し、ドメイン間でトークンアラインメントをガイドするための空間認識トークンアラインメント(SpaTA)およびセマンティックアウェアトークンアラインメント(SemTA)戦略を提案します。空間認識トークンアラインメントの場合、クロスアテンションマップ(CAM)から情報を抽出して、オブジェクトクエリへのアテンションに従ってトークンの分布をアラインメントできます。セマンティック対応のトークンアラインメントでは、カテゴリ情報をクロスアテンションマップに挿入し、ドメイン埋め込みを構築して、マルチクラスディスクリミネーターの学習をガイドし、カテゴリの関係をモデル化し、適応全体でカテゴリレベルのトークンアラインメントを実現します。処理する。広く使用されているいくつかのベンチマークで広範な実験を実施し、その結果は、既存の最先端のベースラインに対する提案された方法の有効性を明確に示しています。
Detection transformers like DETR have recently shown promising performance on many object detection tasks, but the generalization ability of those methods is still quite challenging for cross-domain adaptation scenarios. To address the cross-domain issue, a straightforward way is to perform token alignment with adversarial training in transformers. However, its performance is often unsatisfactory as the tokens in detection transformers are quite diverse and represent different spatial and semantic information. In this paper, we propose a new method called Spatial-aware and Semantic-aware Token Alignment (SSTA) for cross-domain detection transformers. In particular, we take advantage of the characteristics of cross-attention as used in detection transformer and propose the spatial-aware token alignment (SpaTA) and the semantic-aware token alignment (SemTA) strategies to guide the token alignment across domains. For spatial-aware token alignment, we can extract the information from the cross-attention map (CAM) to align the distribution of tokens according to their attention to object queries. For semantic-aware token alignment, we inject the category information into the cross-attention map and construct domain embedding to guide the learning of a multi-class discriminator so as to model the category relationship and achieve category-level token alignment during the entire adaptation process. We conduct extensive experiments on several widely-used benchmarks, and the results clearly show the effectiveness of our proposed method over existing state-of-the-art baselines.
updated: Wed Jun 01 2022 04:13:22 GMT+0000 (UTC)
published: Wed Jun 01 2022 04:13:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト