CAN: Composite Appearance Network for Person Tracking and How to Model Errors in a Tracking System
  複数のカメラで複数の人を追跡することは未解決の問題です。通常、2つのタスクに分割されます:(i)単一カメラトラッキング(SCT)-同じシーン内の軌跡を識別する、および(ii)カメラ間トラッキング(ICT)-実際の監視シーンのカメラ全体の軌跡を識別する多くの方法はSCTに対応していますが、ICTは依然として課題です。本論文では、人の境界ボックスやカメラ情報などのメタデータを組み込むことにより、テンプレートベースの人の再識別のための動きキューと特徴集約ネットワークを使用する追跡方法を提案する。上記の問題に対処するために、Composite Appearance Network(CAN)と呼ばれる機能集約アーキテクチャを提示します。このアーキテクチャの主要な構造はEvalNetと呼ばれ、各特徴ベクトルに注意を払い、最適な再識別パフォーマンスのためにテンプレート全体に対して受け取った勾配に基づいてそれらを重み付けすることを学習します。困難なマルチカメラ追跡データセット、DukeMTMCの実験により、アプローチの効率性を実証します。また、既存の追跡手段を調査し、SCTおよびICTエラーを均一に処理することにより、追跡/再識別エラーのより良い推定を提供する「推論エラー」(IE)と呼ばれるオンラインエラーメトリックを提示します。
Tracking multiple people across multiple cameras is an open problem. It is typically divided into two tasks: (i) single-camera tracking (SCT) - identify trajectories in the same scene, and (ii) inter-camera tracking (ICT) - identify trajectories across cameras for real surveillance scenes. Many methods cater to SCT, while ICT still remains a challenge. In this paper, we propose a tracking method which uses motion cues and a feature aggregation network for template-based person re-identification by incorporating metadata such as person bounding box and camera information. We present a feature aggregation architecture called Composite Appearance Network (CAN) to address the above problem. The key structure of this architecture is called EvalNet that pays attention to each feature vector and learns to weight them based on gradients it receives for the overall template for optimal re-identification performance. We demonstrate the efficiency of our approach with experiments on the challenging multi-camera tracking dataset, DukeMTMC. We also survey existing tracking measures and present an online error metric called "Inference Error" (IE) that provides a better estimate of tracking/re-identification error, by treating SCT and ICT errors uniformly.
updated: Thu Oct 03 2019 22:48:18 GMT+0000 (UTC)
published: Thu Nov 15 2018 20:23:46 GMT+0000 (UTC)
