arXiv reaDer
Video Person ReID におけるドメイン適応のためのカメラ位置合わせと加重コントラスト学習
Camera Alignment and Weighted Contrastive Learning for Domain Adaptation in Video Person ReID
個人再識別 (ReID) のシステムは、完全にラベル付けされた大規模な画像データセットでトレーニングすると、高い精度を達成できます。ただし、通常、さまざまな運用キャプチャ条件 (カメラの視点や照明など) に関連するドメイン シフトは、パフォーマンスの大幅な低下につながる可能性があります。このホワイトペーパーでは、ビデオベースの ReID の教師なしドメイン適応 (UDA) に焦点を当てています。これは、文献ではあまり検討されていない関連シナリオです。このシナリオでは、ReID モデルは、トラックレット情報に基づく多様なビデオ カメラのネットワークによって定義される複雑なターゲット ドメインに適応する必要があります。最先端の方法は、ラベル付けされていないターゲット データをクラスター化しますが、ターゲット カメラ (サブドメイン) 間のドメイン シフトは、エポック間でノイズを伝播するクラスター化方法の初期化が不十分になる可能性があるため、ReID モデルが同じアイデンティティのサンプルを正確に関連付けることができなくなります。このホワイト ペーパーでは、ビデオ トラックレットに関する知識と、ターゲット カメラでキャプチャされたフレームの配布に関する知識を活用して、疑似ラベルを使用してトレーニングされた CNN バックボーンのパフォーマンスを向上させる UDA メソッドをビデオ パーソン ReID に導入します。私たちの方法は敵対的アプローチに依存しており、カメラ弁別器ネットワークを導入してカメラに依存しない弁別表現を抽出し、その後のクラスタリングを容易にします。さらに、クラスターの信頼性を活用し、誤った ID 関連付けのリスクを軽減するために、重み付けされた対照的な損失が提案されています。 PRID2011、iLIDS-VID、MARS の 3 つの挑戦的なビデオベースの人物 ReID データセットで得られた実験結果は、提案された方法が関連する最先端の方法よりも優れていることを示しています。コードは で入手できます。
Systems for person re-identification (ReID) can achieve a high accuracy when trained on large fully-labeled image datasets. However, the domain shift typically associated with diverse operational capture conditions (e.g., camera viewpoints and lighting) may translate to a significant decline in performance. This paper focuses on unsupervised domain adaptation (UDA) for video-based ReID - a relevant scenario that is less explored in the literature. In this scenario, the ReID model must adapt to a complex target domain defined by a network of diverse video cameras based on tracklet information. State-of-art methods cluster unlabeled target data, yet domain shifts across target cameras (sub-domains) can lead to poor initialization of clustering methods that propagates noise across epochs, thus preventing the ReID model to accurately associate samples of same identity. In this paper, an UDA method is introduced for video person ReID that leverages knowledge on video tracklets, and on the distribution of frames captured over target cameras to improve the performance of CNN backbones trained using pseudo-labels. Our method relies on an adversarial approach, where a camera-discriminator network is introduced to extract discriminant camera-independent representations, facilitating the subsequent clustering. In addition, a weighted contrastive loss is proposed to leverage the confidence of clusters, and mitigate the risk of incorrect identity associations. Experimental results obtained on three challenging video-based person ReID datasets - PRID2011, iLIDS-VID, and MARS - indicate that our proposed method can outperform related state-of-the-art methods. Our code is available at:
updated: Mon Nov 07 2022 15:32:56 GMT+0000 (UTC)
published: Mon Nov 07 2022 15:32:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト