スケルトンベースの人物再識別のための構造協調関係学習によるマルチレベル グラフ エンコーディング
Multi-Level Graph Encoding with Structural-Collaborative Relation Learning for Skeleton-Based Person Re-Identification
スケルトンベースの個人再識別 (Re-ID) は、安全性が重要なアプリケーションに大きな価値を提供する新しいオープン トピックです。既存の方法は通常、手作業で作成された特徴やモデルの骨格ダイナミクスを体の関節の軌跡から抽出しますが、体の構造や動きに含まれる貴重な関係情報を調査することはめったにありません。身体の関係を完全に調査するために、さまざまなレベルから人間の骨格をモデル化するグラフを構築し、構造協調関係学習 (MG-SCR) を使用したマルチレベル グラフ エンコーディング アプローチを初めて提案し、人の識別グラフの特徴をエンコードします。 ID具体的には、構造的に接続された身体コンポーネントがスケルトンで高度に相関していることを考慮して、最初にマルチヘッド構造関係レイヤーを提案して、グラフ内の隣接する身体コンポーネントノードのさまざまな関係を学習します。第二に、歩行における身体コンポーネントのコラボレーションには通常認識可能なパターンがあるという事実に触発されて、異なるレベルのコンポーネント間のコラボレーションを推論するクロスレベルの協調関係レイヤーを提案し、より弁別的なスケルトン グラフの特徴をキャプチャします。最後に、グラフ ダイナミクスのエンコーディングを強化するために、モデルの事前トレーニング用の新しい自己監視型スパース シーケンシャル予測タスクを提案します。これにより、人の再 ID の高レベルのグラフ セマンティクスのエンコーディングが容易になります。 MG-SCR は、最先端のスケルトンベースの方法よりも優れており、追加の RGB または深度機能を利用する多くのマルチモーダル方法よりも優れたパフォーマンスを実現します。私たちのコードは で入手できます。
Skeleton-based person re-identification (Re-ID) is an emerging open topic providing great value for safety-critical applications. Existing methods typically extract hand-crafted features or model skeleton dynamics from the trajectory of body joints, while they rarely explore valuable relation information contained in body structure or motion. To fully explore body relations, we construct graphs to model human skeletons from different levels, and for the first time propose a Multi-level Graph encoding approach with Structural-Collaborative Relation learning (MG-SCR) to encode discriminative graph features for person Re-ID. Specifically, considering that structurally-connected body components are highly correlated in a skeleton, we first propose a multi-head structural relation layer to learn different relations of neighbor body-component nodes in graphs, which helps aggregate key correlative features for effective node representations. Second, inspired by the fact that body-component collaboration in walking usually carries recognizable patterns, we propose a cross-level collaborative relation layer to infer collaboration between different level components, so as to capture more discriminative skeleton graph features. Finally, to enhance graph dynamics encoding, we propose a novel self-supervised sparse sequential prediction task for model pre-training, which facilitates encoding high-level graph semantics for person Re-ID. MG-SCR outperforms state-of-the-art skeleton-based methods, and it achieves superior performance to many multi-modal methods that utilize extra RGB or depth features. Our codes are available at
