教師なしドメイン適応オブジェクト検出は、十分にトレーニングされた検出器を、豊富なラベル付きデータを含む元のソースドメインから、ラベルなしデータを含む新しいターゲットドメインに適応させることを目的としています。これまでの研究は、地域提案ネットワーク(RPN)から明示的に抽出されたクロスドメインインスタンスレベルの特徴を照合することにより、Faster-RCNNなどの地域ベースの検出器のドメイン適応性を改善することに焦点を当てています。ただし、これは、画像内のすべての可能な場所から高密度の予測を実行し、そのようなインスタンスレベルの特徴をエンコードするRPNを持たないシングルショット検出器(SSD)などの領域のない検出器には適していません。その結果、領域のない検出器のドメイン間で重要な画像領域と重要なインスタンスレベルの特徴を整列させることができません。この作業では、領域のない検出器のインスタンスレベルの機能のクロスドメインマッチングを強化するための敵対的なモジュールを提案します。まず、画像の重要な領域を強調するために、DSEMは、画像の背景の乱れを抑制するために利用できる転送可能な前景強調マスクを予測することを学習します。次に、リージョンフリー検出器がマルチスケール機能マップを使用してさまざまなスケールのオブジェクトを認識することを考慮すると、DSEMは、さまざまなドメインにわたるマルチレベルのセマンティック表現とマルチインスタンスの空間コンテキスト関係の両方をエンコードします。最後に、DSEMはさまざまな領域のない検出器にプラグイン可能であり、最終的には敵対的学習を介して高密度のセマンティック機能マッチングを実現します。 PASCAL VOC、クリップアート、コミック、水彩、FoggyCityscapeベンチマークで広範な実験が行われ、それらの結果は、提案されたアプローチが領域のない検出器のドメイン適応性を改善するだけでなく、既存のドメイン適応領域ベースの検出器よりも優れていることをよく示しています。さまざまなドメインシフト設定。
Unsupervised domain adaptive object detection aims to adapt a well-trained detector from its original source domain with rich labeled data to a new target domain with unlabeled data. Previous works focus on improving the domain adaptability of region-based detectors, e.g., Faster-RCNN, through matching cross-domain instance-level features that are explicitly extracted from a region proposal network (RPN). However, this is unsuitable for region-free detectors such as single shot detector (SSD), which perform a dense prediction from all possible locations in an image and do not have the RPN to encode such instance-level features. As a result, they fail to align important image regions and crucial instance-level features between the domains of region-free detectors. In this work, we propose an adversarial module to strengthen the cross-domain matching of instance-level features for region-free detectors. Firstly, to emphasize the important regions of image, the DSEM learns to predict a transferable foreground enhancement mask that can be utilized to suppress the background disturbance in an image. Secondly, considering that region-free detectors recognize objects of different scales using multi-scale feature maps, the DSEM encodes both multi-level semantic representations and multi-instance spatial-contextual relationships across different domains. Finally, the DSEM is pluggable into different region-free detectors, ultimately achieving the densely semantic feature matching via adversarial learning. Extensive experiments have been conducted on PASCAL VOC, Clipart, Comic, Watercolor, and FoggyCityscape benchmarks, and their results well demonstrate that the proposed approach not only improves the domain adaptability of region-free detectors but also outperforms existing domain adaptive region-based detectors under various domain shift settings.