arXiv reaDer
遠方のシーンにわたるカメラ内監視対象者の再識別のためのカメラ間特徴予測
Cross-Camera Feature Prediction for Intra-Camera Supervised Person Re-identification across Distant Scenes
人物の再識別(Re-ID)は、重複しないカメラビュー全体で人物の画像を照合することを目的としています。 Re-ID手法の大部分は、各歩行者が隣接するシーンの異なるカメラビューでキャプチャされる小規模な監視システムに焦点を合わせています。ただし、より広いエリアをカバーする大規模な監視システムでは、離れたシーンで関心のある歩行者を追跡する必要があります(たとえば、犯罪容疑者が1つの都市から別の都市に逃げる)。ほとんどの歩行者は限られた地域にいるため、同じ人物のクロスカメラペアでトレーニングデータを収集することは困難です。この作業では、トレーニングのためにカメラ内のペアになっていないデータとカメラ内のIDラベルを使用する、離れたシーンにわたるカメラ内の監視対象者の再識別(ICS-DS Re-ID)を研究します。クロスカメラペアデータは、ほとんどの既存のRe-IDメソッドでカメラ不変の機能を学習するために重要な役割を果たすため、これは困難です。クロスカメラのペアになっていないトレーニングデータからカメラ不変表現を学習するために、偽のクロスカメラの正の特徴ペアを変換して距離を最小化することにより、カメラ固有の特徴分布からクロスカメラの自己監視情報をマイニングするクロスカメラ特徴予測方法を提案します。偽のペアの。さらに、トランスフォーマーによってローカルレベルの特徴を自動的にローカライズして抽出します。グローバルレベルとローカルレベルの機能の共同学習は、きめ細かいクロスカメラ自己監視情報をマイニングするためのグローバルローカルクロスカメラ機能予測スキームを形成します。最後に、クロスカメラ自己監視とカメラ内監視がフレームワークに集約されます。実験は、Market-SCT、Duke-SCT、およびMSMT17-SCTデータセットのICS-DS設定で実施されます。評価結果は、2番目に優れた方法と比較してMarket-SCTで15.4ランク1および22.3mAPの大幅な改善が得られる私たちの方法の優位性を示しています。
Person re-identification (Re-ID) aims to match person images across non-overlapping camera views. The majority of Re-ID methods focus on small-scale surveillance systems in which each pedestrian is captured in different camera views of adjacent scenes. However, in large-scale surveillance systems that cover larger areas, it is required to track a pedestrian of interest across distant scenes (e.g., a criminal suspect escapes from one city to another). Since most pedestrians appear in limited local areas, it is difficult to collect training data with cross-camera pairs of the same person. In this work, we study intra-camera supervised person re-identification across distant scenes (ICS-DS Re-ID), which uses cross-camera unpaired data with intra-camera identity labels for training. It is challenging as cross-camera paired data plays a crucial role for learning camera-invariant features in most existing Re-ID methods. To learn camera-invariant representation from cross-camera unpaired training data, we propose a cross-camera feature prediction method to mine cross-camera self supervision information from camera-specific feature distribution by transforming fake cross-camera positive feature pairs and minimize the distances of the fake pairs. Furthermore, we automatically localize and extract local-level feature by a transformer. Joint learning of global-level and local-level features forms a global-local cross-camera feature prediction scheme for mining fine-grained cross-camera self supervision information. Finally, cross-camera self supervision and intra-camera supervision are aggregated in a framework. The experiments are conducted in the ICS-DS setting on Market-SCT, Duke-SCT and MSMT17-SCT datasets. The evaluation results demonstrate the superiority of our method, which gains significant improvements of 15.4 Rank-1 and 22.3 mAP on Market-SCT as compared to the second best method.
updated: Thu Jul 29 2021 11:27:50 GMT+0000 (UTC)
published: Thu Jul 29 2021 11:27:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト