既存の部分認識の個人再識別方法では、通常、2つの別々のステップを使用します。つまり、身体部分の検出と部分レベルの特徴抽出です。ただし、パーツの検出には追加の計算コストがかかり、低品質の画像にとって本質的に困難です。したがって、この作業では、意味論的に位置合わせされたパーツの機能を学習しながら、トレーニングとテストの両方の段階で身体のパーツの検出をバイパスするバッチコヒーレンス駆動ネットワーク(BCD-Net)というシンプルなフレームワークを提案します。私たちの主な観察は、画像のバッチ内の統計は安定しているため、バッチレベルの制約が堅牢であることです。最初に、ディープバックボーンモデルの出力からそれぞれの部分に関連するチャネルを強調表示する、バッチコヒーレンスに基づくチャネルアテンション(BCCA)モジュールを紹介します。トレーニング画像のバッチを使用してチャンネルパーツの対応を調査し、BCCAがパーツに関連するチャンネルを識別するのに役立つ新しいバッチレベルの監視信号を課します。第2に、身体の一部の平均位置は堅牢で、トレーニングプロセス全体でバッチ間で一貫しています。したがって、バッチ間のセマンティックの一貫性に基づいて、1組の正則化用語を導入します。最初の用語は、事前定義された領域内に制限するために、1つのバッチの各パーツのBCD-Netの高い応答を正則化します。上記の制約により、BCD-Netは多様で補完的で意味的に整合したパーツレベルの機能を学習できます。広範な実験結果は、BCDNetが4つの大規模なReIDベンチマークで常に最先端のパフォーマンスを達成していることを示しています。
Existing part-aware person re-identification methods typically employ two separate steps: namely, body part detection and part-level feature extraction. However, part detection introduces an additional computational cost and is inherently challenging for low-quality images. Accordingly, in this work, we propose a simple framework named Batch Coherence-Driven Network (BCD-Net) that bypasses body part detection during both the training and testing phases while still learning semantically aligned part features. Our key observation is that the statistics in a batch of images are stable, and therefore that batch-level constraints are robust. First, we introduce a batch coherence-guided channel attention (BCCA) module that highlights the relevant channels for each respective part from the output of a deep backbone model. We investigate channelpart correspondence using a batch of training images, then impose a novel batch-level supervision signal that helps BCCA to identify part-relevant channels. Second, the mean position of a body part is robust and consequently coherent between batches throughout the training process. Accordingly, we introduce a pair of regularization terms based on the semantic consistency between batches. The first term regularizes the high responses of BCD-Net for each part on one batch in order to constrain it within a predefined area, while the second encourages the aggregate of BCD-Nets responses for all parts covering the entire human body. The above constraints guide BCD-Net to learn diverse, complementary, and semantically aligned part-level features. Extensive experimental results demonstrate that BCDNet consistently achieves state-of-the-art performance on four large-scale ReID benchmarks.