ほとんどのビデオ人物再識別(re-ID)メソッドは、主に教師付き学習に基づいており、クロスカメラIDラベル付けが必要です。カメラの数が増えると、ラベル付けのコストが劇的に増加するため、大規模なカメラネットワークに再識別アルゴリズムを適用することは困難です。このホワイトペーパーでは、複数のカメラでID情報を使用せずにディープリプレゼンテーションラーニングを提示することにより、スケーラビリティの問題に対処します。技術的には、ニューラルネットワークをトレーニングして、ID識別機能とカメラ不変機能の両方を生成します。埋め込み機能のID識別機能を実現するために、メトリック学習アプローチを使用して、カメラ内の異なる人物ID間の機能距離を最大化します。同時に、各カメラを異なるドメインと見なして、カメラ不変の特徴を生成するために、複数のカメラドメインにわたって敵対的学習を適用します。また、さまざまな空間領域でマルチカメラドメイン不変特徴学習を効果的に実行する部分認識適応モジュールも提案します。 3つのパブリックre-IDデータセット(つまり、PRID-2011、iLIDS-VID、およびMARS)で包括的な実験を実施しています。この方法は、大規模なMARSデータセットのランク1の精度に関して、最先端の方法よりも約20%大きなマージンで優れています。
Most video person re-identification (re-ID) methods are mainly based on supervised learning, which requires cross-camera ID labeling. Since the cost of labeling increases dramatically as the number of cameras increases, it is difficult to apply the re-identification algorithm to a large camera network. In this paper, we address the scalability issue by presenting deep representation learning without ID information across multiple cameras. Technically, we train neural networks to generate both ID-discriminative and camera-invariant features. To achieve the ID discrimination ability of the embedding features, we maximize feature distances between different person IDs within a camera by using a metric learning approach. At the same time, considering each camera as a different domain, we apply adversarial learning across multiple camera domains for generating camera-invariant features. We also propose a part-aware adaptation module, which effectively performs multi-camera domain invariant feature learning in different spatial regions. We carry out comprehensive experiments on three public re-ID datasets (i.e., PRID-2011, iLIDS-VID, and MARS). Our method outperforms state-of-the-art methods by a large margin of about 20% in terms of rank-1 accuracy on the large-scale MARS dataset.