人の再識別のために、既存のディープネットワークは、表現学習に焦点を合わせることがよくあります。ただし、転移学習を行わない場合、学習したモデルはそのまま固定され、さまざまな目に見えないシナリオの処理には適応できません。この論文では、表現学習を超えて、深い特徴マップで直接人物画像マッチングを作成する方法を検討します。特徴マップでローカル対応を見つけることとして画像マッチングを扱い、ローカルマッチングを達成するためにオンザフライでクエリ適応型畳み込みカーネルを構築します。このように、マッチングプロセスと結果は解釈可能であり、この明示的なマッチングは、未知のミスアラインメント、ポーズ、視点の変更など、目に見えないシナリオへの表現機能よりも一般化できます。このアーキテクチャのエンドツーエンドのトレーニングを容易にするために、クラス学習モジュールをさらに構築して、各クラスの最新のサンプルの機能マップをキャッシュし、メトリック学習の画像マッチング損失を計算します。提案されたクエリ適応畳み込み(QAConv)手法は、直接のデータセット間の直接評価を通じて、一般的な学習手法(約10%+ mAP)を大幅に改善し、多くの転移学習手法に匹敵する結果を達成します。さらに、TLiftと呼ばれるモデルフリーの時間的共起ベースのスコア重み付け方法が提案されています。これにより、パフォーマンスがさらに向上し、データセットをまたがる人物の再識別で最先端の結果が得られます。コードはhttps://github.com/ShengcaiLiao/QAConvで入手できます。
For person re-identification, existing deep networks often focus on representation learning. However, without transfer learning, the learned model is fixed as is, which is not adaptable for handling various unseen scenarios. In this paper, beyond representation learning, we consider how to formulate person image matching directly in deep feature maps. We treat image matching as finding local correspondences in feature maps, and construct query-adaptive convolution kernels on the fly to achieve local matching. In this way, the matching process and results are interpretable, and this explicit matching is more generalizable than representation features to unseen scenarios, such as unknown misalignments, pose or viewpoint changes. To facilitate end-to-end training of this architecture, we further build a class memory module to cache feature maps of the most recent samples of each class, so as to compute image matching losses for metric learning. Through direct cross-dataset evaluation, the proposed Query-Adaptive Convolution (QAConv) method gains large improvements over popular learning methods (about 10%+ mAP), and achieves comparable results to many transfer learning methods. Besides, a model-free temporal cooccurrence based score weighting method called TLift is proposed, which improves the performance to a further extent, achieving state-of-the-art results in cross-dataset person re-identification. Code is available at https://github.com/ShengcaiLiao/QAConv.