arXiv reaDer
閉塞者の再識別のための全体的なガイダンス
Holistic Guidance for Occluded Person Re-Identification
実際のビデオ監視アプリケーションでは、個人の再識別(ReID)は、オクルージョンと検出エラーの影響を受けます。最近の進歩にもかかわらず、オクルージョンは最先端のCNNバックボーンによって抽出された特徴を破壊し続け、それによってReIDシステムの精度を低下させます。この問題に対処するために、文献の方法では、ポーズ推定などの追加のコストのかかるプロセスを使用します。ポーズマップは、遮蔽された領域を除外するための監視を提供します。対照的に、個人IDラベルのみに依存し、データセットのペアワイズマッチング距離の分布に依存して、追加の監視を必要とせずにオクルージョンの問題を軽減する、新しいホリスティックガイダンス(HG)メソッドを紹介します。したがって、提案された学生と教師のフレームワークは、オクルージョンされたサンプルのクラス間およびクラス内距離(DCD)の分布をホリスティック(オクルージョンされていない)サンプルの分布と一致させることによってオクルージョンの問題に対処するようにトレーニングされています。十分に分離されたDCDを学習するためのソフトラベル付きリファレンス。このアプローチは、画像間のクラス間距離とクラス内距離の分布が、全体的なデータセットよりもオクルージョンされたデータセットでより多く重複しているという実証研究によってサポートされています。特に、両方のデータセットから抽出された特徴は、学生モデルを使用して共同で学習され、可視領域を遮蔽された領域から分離できる注意マップを作成します。これに加えて、共同の生成的識別バックボーンは、ノイズ除去オートエンコーダーでトレーニングされ、システムがオクルージョンから自己回復できるようにします。いくつかの挑戦的な公開データセットでの広範な実験は、提案されたアプローチが、閉塞されたデータセットと全体的なデータセットの両方で最先端の方法を上回ることができることを示しています
In real-world video surveillance applications, person re-identification (ReID) suffers from the effects of occlusions and detection errors. Despite recent advances, occlusions continue to corrupt the features extracted by state-of-art CNN backbones, and thereby deteriorate the accuracy of ReID systems. To address this issue, methods in the literature use an additional costly process such as pose estimation, where pose maps provide supervision to exclude occluded regions. In contrast, we introduce a novel Holistic Guidance (HG) method that relies only on person identity labels, and on the distribution of pairwise matching distances of datasets to alleviate the problem of occlusion, without requiring additional supervision. Hence, our proposed student-teacher framework is trained to address the occlusion problem by matching the distributions of between- and within-class distances (DCDs) of occluded samples with that of holistic (non-occluded) samples, thereby using the latter as a soft labeled reference to learn well separated DCDs. This approach is supported by our empirical study where the distribution of between- and within-class distances between images have more overlap in occluded than holistic datasets. In particular, features extracted from both datasets are jointly learned using the student model to produce an attention map that allows separating visible regions from occluded ones. In addition to this, a joint generative-discriminative backbone is trained with a denoising autoencoder, allowing the system to self-recover from occlusions. Extensive experiments on several challenging public datasets indicate that the proposed approach can outperform state-of-the-art methods on both occluded and holistic datasets
updated: Sat Jul 22 2023 13:24:34 GMT+0000 (UTC)
published: Tue Apr 13 2021 21:50:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト