arXiv reaDer
RGB赤外線人物の再識別のためのコンパクトな特徴学習を備えたマルチスケールカスケードネットワーク
Multi-Scale Cascading Network with Compact Feature Learning for RGB-Infrared Person Re-Identification
RGB-赤外線人物の再識別(RGB-IR Re-ID)は、可視カメラと赤外線カメラでキャプチャされた異種画像から人物を照合することを目的としています。これは、暗い場所での監視システムで非常に重要です。従来の単一モダリティおよび追加のモダリティ間不一致を含む複雑な分散における大きな課題に直面して、既存のRGB-IR Re-IDメソッドのほとんどは、画像レベル、機能レベル、または両方のハイブリッドに制約を課すことを提案しています。ハイブリッド制約のパフォーマンスは優れていますが、通常は重いネットワークアーキテクチャで実装されます。実際のところ、これまでの取り組みは、改善のための大きなスペースを残しながら、新しいクロスモーダルRe-IDエリアでの先駆的な作業としてより貢献しています。これは主に、(1)トレーニング用のさまざまなモダリティからの豊富な人物画像ペアの欠如、および(2)特に効果的なマッチングのための粗い表現での顕著なモダリティ不変の特徴の不足に起因する可能性があります。これらの問題に対処するために、新しいマルチスケールパーツ認識カスケードフレームワーク(MSPAC)が、マルチスケールのきめ細かい機能をパーツからグローバルにカスケード方式で集約することによって定式化されます。これにより、豊富で強化されたセマンティック機能を含む統合表現が実現します。 。さらに、限界指数中心(MeCen)損失が導入され、モーダル内およびモーダル間の例から混合分散が共同で排除されます。したがって、クロスモダリティ相関は、特徴的なモダリティ不変の特徴学習のための顕著な特徴について効率的に調査することができます。提案された方法がすべての最先端技術を大幅に上回っていることを実証するために、広範な実験が行われています。
RGB-Infrared person re-identification (RGB-IR Re-ID) aims to match persons from heterogeneous images captured by visible and thermal cameras, which is of great significance in the surveillance system under poor light conditions. Facing great challenges in complex variances including conventional single-modality and additional inter-modality discrepancies, most of the existing RGB-IR Re-ID methods propose to impose constraints in image level, feature level or a hybrid of both. Despite the better performance of hybrid constraints, they are usually implemented with heavy network architecture. As a matter of fact, previous efforts contribute more as pioneering works in new cross-modal Re-ID area while leaving large space for improvement. This can be mainly attributed to: (1) lack of abundant person image pairs from different modalities for training, and (2) scarcity of salient modality-invariant features especially on coarse representations for effective matching. To address these issues, a novel Multi-Scale Part-Aware Cascading framework (MSPAC) is formulated by aggregating multi-scale fine-grained features from part to global in a cascading manner, which results in a unified representation containing rich and enhanced semantic features. Furthermore, a marginal exponential centre (MeCen) loss is introduced to jointly eliminate mixed variances from intra- and inter-modal examples. Cross-modality correlations can thus be efficiently explored on salient features for distinctive modality-invariant feature learning. Extensive experiments are conducted to demonstrate that the proposed method outperforms all the state-of-the-art by a large margin.
updated: Sat Dec 12 2020 15:39:11 GMT+0000 (UTC)
published: Sat Dec 12 2020 15:39:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト