arXiv reaDer
SFANet:可視赤外線人物の再識別のためのスペクトル認識機能拡張ネットワーク
SFANet: A Spectrum-aware Feature Augmentation Network for Visible-Infrared Person Re-Identification
可視-赤外線の再識別(VI-ReID)は、可視画像と赤外線画像の間のモダリティのばらつきが大きいため、マッチングの問題が困難です。既存のアプローチは通常、ピクセルレベルの変動を無視して、機能レベルの制約のみでモダリティギャップを埋めます。一部の方法では、GANを使用してスタイルに一貫性のある画像を生成しますが、GANは構造情報を破壊し、かなりのレベルのノイズを発生させます。この論文では、これらの課題を明確に検討し、クロスモダリティマッチング問題のためのSFANetという名前の新しいスペクトル認識機能拡張ネットワークを定式化します。具体的には、特徴学習のためにRGB画像を完全に置き換えるためにグレースケールスペクトル画像を採用することを提案しました。グレースケールスペクトル画像を使用して学習することで、モデルは明らかにモダリティの不一致を減らし、さまざまなモダリティ間の内部構造の関係を検出できるため、色の変化に対して堅牢になります。機能レベルでは、機能の空間構造情報を保持する特定の共有可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。さらに、双方向の3制約付きトッププッシュランキング損失(BTTR)が提案されたネットワークに組み込まれ、識別可能性が向上します。これにより、マッチングの精度がさらに効率的に向上します。一方、アイデンティティ固有の情報をモデル化し、大きさの安定化におけるBTTR損失を支援するために、バッチ正規化ID埋め込み方法を使用した効果的なデュアルリニアをさらに導入します。 SYSU-MM01およびRegDBデータセットについて、提案されたフレームワークが不可欠であり、非常に競争力のあるVI-ReIDパフォーマンスを達成することを実証するために、広範な実験を実施しました。
Visible-Infrared person re-identification (VI-ReID) is a challenging matching problem due to large modality varitions between visible and infrared images. Existing approaches usually bridge the modality gap with only feature-level constraints, ignoring pixel-level variations. Some methods employ GAN to generate style-consistent images, but it destroys the structure information and incurs a considerable level of noise. In this paper, we explicitly consider these challenges and formulate a novel spectrum-aware feature augementation network named SFANet for cross-modality matching problem. Specifically, we put forward to employ grayscale-spectrum images to fully replace RGB images for feature learning. Learning with the grayscale-spectrum images, our model can apparently reduce modality discrepancy and detect inner structure relations across the different modalities, making it robust to color variations. In feature-level, we improve the conventional two-stream network through balancing the number of specific and sharable convolutional blocks, which preserve the spatial structure information of features. Additionally, a bi-directional tri-constrained top-push ranking loss (BTTR) is embedded in the proposed network to improve the discriminability, which efficiently further boosts the matching accuracy. Meanwhile, we further introduce an effective dual-linear with batch normalization ID embedding method to model the identity-specific information and assits BTTR loss in magnitude stabilizing. On SYSU-MM01 and RegDB datasets, we conducted extensively experiments to demonstrate that our proposed framework contributes indispensably and achieves a very competitive VI-ReID performance.
updated: Wed Feb 24 2021 08:57:32 GMT+0000 (UTC)
published: Wed Feb 24 2021 08:57:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト