arXiv reaDer
G2DA:RGB赤外線による人物の再識別のためのジオメトリガイド付きデュアルアライメント学習
G2DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person Re-Identification
RGB赤外線(IR)人物の再識別は、異なるセンシング波長範囲によって引き起こされる大きな画像モダリティの不一致に簡単に悩まされている異種カメラから関心のある人物を取得することを目的としています。既存の作業は通常、セマンティック部分間のモダリティ内の構造的関係を無視しながら、グローバル機能のドメイン分布を調整することによって、このような不一致を最小限に抑えます。これにより、ネットワークが長距離の身体部分の依存関係を考慮せずにローカルキューに過度に集中し、意味のない領域表現につながる可能性があります。この論文では、RGB-IR ReIDのために、グラフ対応の分布マッチングソリューションであるGeometry-Guided Dual-Alignment(G2DA)学習を提案します。人間のトポロジー情報を埋め込んだマルチスケールスケルトングラフ内のグラフマッチングタスクを解決することにより、パーツセマンティクスと構造関係の間のクロスモーダル一貫性を共同で促進して、きめ細かいモダリティアラインメントを実現できます。具体的には、すべてのクロスモダリティ画像をポーズ適応グラフ構築メカニズムを介してマッピングできる、セマンティックに整列した完全グラフを構築することを提案します。このグラフは、ノードごとに抽出されたパーツ全体の特徴を表し、関連するエッジとのノードごとの類似性を表します。グラフベースのデュアルアラインメント学習を実現するために、最適トランスポート(OT)ベースの構造化メトリックがさらに導入され、モダリティ間のポイントごとの関係とグループごとの構造的類似性が同時に測定されます。モダリティ間輸送計画のコストを最小限に抑えることにより、G2DAは、モダリティ間画像検索のための一貫性のある識別可能な特徴部分空間を学習できます。さらに、メッセージ融合注意(MFA)メカニズムを進化させて、セマンティック伝播の情報フローを適応的に再重み付けし、抽出されたセマンティック特徴の識別可能性を効果的に強化します。
RGB-Infrared (IR) person re-identification aims to retrieve person-of-interest from heterogeneous cameras, easily suffering from large image modality discrepancy caused by different sensing wavelength ranges. Existing work usually minimizes such discrepancy by aligning domain distribution of global features, while neglecting the intra-modality structural relations between semantic parts. This could result in the network overly focusing on local cues, without considering long-range body part dependencies, leading to meaningless region representations. In this paper, we propose a graph-enabled distribution matching solution, dubbed Geometry-Guided Dual-Alignment (G2DA) learning, for RGB-IR ReID. It can jointly encourage the cross-modal consistency between part semantics and structural relations for fine-grained modality alignment by solving a graph matching task within a multi-scale skeleton graph that embeds human topology information. Specifically, we propose to build a semantic-aligned complete graph into which all cross-modality images can be mapped via a pose-adaptive graph construction mechanism. This graph represents extracted whole-part features by nodes and expresses the node-wise similarities with associated edges. To achieve the graph-based dual-alignment learning, an Optimal Transport (OT) based structured metric is further introduced to simultaneously measure point-wise relations and group-wise structural similarities across modalities. By minimizing the cost of an inter-modality transport plan, G2DA can learn a consistent and discriminative feature subspace for cross-modality image retrieval. Furthermore, we advance a Message Fusion Attention (MFA) mechanism to adaptively reweight the information flow of semantic propagation, effectively strengthening the discriminability of extracted semantic features.
updated: Sun Jul 25 2021 02:19:17 GMT+0000 (UTC)
published: Tue Jun 15 2021 03:14:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト