人物の再識別は、ポーズ、照明、視点、背景、センサー ノイズなどの制限のない変動要因によってクラス内分散が大きくなるため、困難な作業です。最近のアプローチでは、強力なアーキテクチャには、迷惑要因を明示的にモデル化せずに、クラス内分散を最小化し、クラス間分離を最大化する損失でそれらをトレーニングすることにより、迷惑要因に対して不変な特徴表現を学習する能力があると仮定されています。支配的なアプローチは、追加の角度マージンを伴うソフトマックス損失のようなマージンを伴う識別損失、またはトリプレットのバッチハードマイニングを伴うトリプレット損失のようなメトリック学習損失のいずれかを使用します。ソフトマックスは機能の正規化を課すため、機能の埋め込みを監視する勾配フローを制限します。損失を結合し、欠落している勾配の代用としてトリプレット損失を活用することで、これに対処します。属性を予測する識別タスクを追加することにより、迷惑要因に対する不変性をさらに改善します。私たちの広範な評価は、全体的な表現のみが学習された場合、最も困難な 3 つのデータセットで常に最先端のパフォーマンスを上回っていることを強調しています。このような表現は、実際のシステムに簡単に展開できます。最後に、損失を結合することで、パフォーマンスを向上させながら、ソフトマックス損失にマージンを持つ必要がなくなることがわかりました。
Person re-identification is a challenging task because of the high intra-class variance induced by the unrestricted nuisance factors of variations such as pose, illumination, viewpoint, background, and sensor noise. Recent approaches postulate that powerful architectures have the capacity to learn feature representations invariant to nuisance factors, by training them with losses that minimize intra-class variance and maximize inter-class separation, without modeling nuisance factors explicitly. The dominant approaches use either a discriminative loss with margin, like the softmax loss with the additive angular margin, or a metric learning loss, like the triplet loss with batch hard mining of triplets. Since the softmax imposes feature normalization, it limits the gradient flow supervising the feature embedding. We address this by joining the losses and leveraging the triplet loss as a proxy for the missing gradients. We further improve invariance to nuisance factors by adding the discriminative task of predicting attributes. Our extensive evaluation highlights that when only a holistic representation is learned, we consistently outperform the state-of-the-art on the three most challenging datasets. Such representations are easier to deploy in practical systems. Finally, we found that joining the losses removes the requirement for having a margin in the softmax loss while increasing performance.