arXiv reaDer
Weighted Bilinear Coding over Salient Body Parts for Person Re-identification
 ディープコンボリューショナルニューラルネットワーク(CNN)は、個人の再識別(Re-ID)で主要なパフォーマンスを発揮しています。既存のCNNベースの方法では、グローバル平均プーリング(GAP)を利用して、Re-IDの中間畳み込み機能を集約します。ただし、この戦略はローカルフィーチャの1次統計のみを考慮し、異なる場所でローカルフィーチャを同様に重要なものとして扱い、最適ではないフィーチャ表現につながります。これらの問題に対処するために、CNNネットワークでの局所的特徴集約のための新しい加重双線形符号化(WBC)フレームワークを提案し、他の最先端の手法に適応し、パフォーマンスを向上させることができる、より代表的かつ識別的な特徴表現を追求します。具体的には、バイリニアコーディングを使用してチャネルごとの機能相関をエンコードし、より豊富な機能の相互作用をキャプチャします。一方、重み付けスキームがバイリニアコーディングに適用され、認識の重要性に基づいて異なる場所でローカルフィーチャの重みを適応的に調整し、フィーチャ集約の識別可能性をさらに向上させます。空間的不整合の問題を処理するために、突出部分ネット(空間的注意モジュール)を使用して突出した身体部分を導き出し、各部分にWBCモデルを適用します。各パーツのWBCエンコードフィーチャを連結して形成される最終的な表現は、差別的であり、空間的なずれに対して耐性があります。 Market-1501、DukeMTMC-reID、およびCUHK03を含む3つのベンチマークでの実験は、他の優れた方法に対する当社の方法の好ましいパフォーマンスを証明しています。
Deep convolutional neural networks (CNNs) have demonstrated dominant performance in person re-identification (Re-ID). Existing CNN based methods utilize global average pooling (GAP) to aggregate intermediate convolutional features for Re-ID. However, this strategy only considers the first-order statistics of local features and treats local features at different locations equally important, leading to sub-optimal feature representation. To deal with these issues, we propose a novel weighted bilinear coding (WBC) framework for local feature aggregation in CNN networks to pursue more representative and discriminative feature representations, which can adapt to other state-of-the-art methods and improve their performance. In specific, bilinear coding is used to encode the channel-wise feature correlations to capture richer feature interactions. Meanwhile, a weighting scheme is applied on the bilinear coding to adaptively adjust the weights of local features at different locations based on their importance in recognition, further improving the discriminability of feature aggregation. To handle the spatial misalignment issue, we use a salient part net (spatial attention module) to derive salient body parts, and apply the WBC model on each part. The final representation, formed by concatenating the WBC encoded features of each part, is both discriminative and resistant to spatial misalignment. Experiments on three benchmarks including Market-1501, DukeMTMC-reID and CUHK03 evidence the favorable performance of our method against other outstanding methods.
updated: Wed Jan 08 2020 14:39:21 GMT+0000 (UTC)
published: Thu Mar 22 2018 20:51:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト