人物検索の目的は、複数の監視カメラで記録された複数の画像の中から対象の人物を検索することです。これは、歩行者の検出と人物の再識別の両方からさまざまな課題に直面します。さまざまな照明条件、オクルージョン、さまざまなポーズに起因するクラス内の大きな変動に加えて、検出された歩行者境界ボックスの背景の乱雑さは、各人の抽出された特徴をさらに劣化させ、識別性を低下させます。これらの問題に対処するために、セグメンテーションマスクを使用してネットワークを誘導する新しいアプローチを開発し、背景の混乱に不変に識別機能を学習できるようにします。歩行者の検出、人物の再識別、歩行者のセグメンテーションの共同最適化により、歩行者の識別機能が向上し、その結果、人物の検索パフォーマンスが向上することを実証します。ベンチマークデータセットCUHK-SYSUでの広範な実験により、提案モデルがそれぞれ86.3%mAPおよび86.5トップ1の精度で最先端のパフォーマンスを達成することが示されています。
Person search aims to search for a target person among multiple images recorded by multiple surveillance cameras, which faces various challenges from both pedestrian detection and person re-identification. Besides the large intra-class variations owing to various illumination conditions, occlusions and varying poses, background clutters in the detected pedestrian bounding boxes further deteriorate the extracted features for each person, making them less discriminative. To tackle these problems, we develop a novel approach which guides the network with segmentation masks so that discriminative features can be learned invariant to the background clutters. We demonstrate that joint optimization of pedestrian detection, person re-identification and pedestrian segmentation enables to produce more discriminative features for pedestrian, and consequently leads to better person search performance. Extensive experiments on benchmark dataset CUHK-SYSU, show that our proposed model achieves the state-of-the-art performance with 86.3% mAP and 86.5 top-1 accuracy respectively.