View Confusion Feature Learning for Person Re-identification
  人の再識別は、さまざまな場所や時間でカメラのビュー全体で人々を関連付けることを目的としたビデオ監視の重要なタスクです。ビューの変動性は、常に個人の再識別パフォーマンスを深刻に低下させる挑戦的な問題です。既存の方法のほとんどは、ビュー不変機能を学習する方法、またはビューごとの機能を組み合わせる方法に焦点を合わせています。このホワイトペーパーでは、主に、ビューの混乱学習メカニズムを使用してビュー固有の情報を削除することにより、ビューに不変の機能を学習する方法に焦点を当てます。具体的には、カメラ全体のRe-IDに対して、View Confusion Feature Learning(VCFL)と呼ばれるエンドツーエンドのトレーニング可能なフレームワークを提案します。私たちの知る限り、VCFLは元々、ビューに不変なアイデンティティ単位の機能を学習するために提案されており、ビュー汎用メソッドとビュー固有メソッドの一種です。ビューの混乱を実現するために、分類子と機能センターが利用されます。さらに、word-of-wordsモデルを使用してシフトガイド付きの特徴を抽出し、ディープネットワークのトレーニングを監視し、特徴のビュー不変性を強化します。実験では、CUHK01、CUHK03、およびMARKET1501を含む3つのベンチマークデータセットでアプローチが検証され、いくつかの最先端のアプローチに対する提案された方法の優位性が示されています。
Person re-identification is an important task in video surveillance that aims to associate people across camera views at different locations and time. View variability is always a challenging problem seriously degrading person re-identification performance. Most of the existing methods either focus on how to learn view invariant feature or how to combine view-wise features. In this paper, we mainly focus on how to learn view-invariant features by getting rid of view specific information through a view confusion learning mechanism. Specifically, we propose an end-toend trainable framework, called View Confusion Feature Learning (VCFL), for person Re-ID across cameras. To the best of our knowledge, VCFL is originally proposed to learn view-invariant identity-wise features, and it is a kind of combination of view-generic and view-specific methods. Classifiers and feature centers are utilized to achieve view confusion. Furthermore, we extract sift-guided features by using bag-of-words model to help supervise the training of deep networks and enhance the view invariance of features. In experiments, our approach is validated on three benchmark datasets including CUHK01, CUHK03, and MARKET1501, which show the superiority of the proposed method over several state-of-the-art approaches
