arXiv reaDer
2 人のインタラクション認識のための 2 ストリーム マルチレベル ダイナミック ポイント トランスフォーマー
Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition
人間の生活の基本的な側面として、2 人の対話には、人々の活動、人間関係、社会的環境に関する意味のある情報が含まれています。人間の行動認識は、個人のプライバシーに重点を置いた多くのスマート アプリケーションの基盤として機能します。ただし、2 人のインタラクションを認識することは、1 人のアクションと比較して体のオクルージョンとオーバーラップが増加するため、より多くの課題を引き起こします。この論文では、2 人のインタラクション認識のための Two-stream Multi-level Dynamic Point Transformer という点群ベースのネットワークを提案します。私たちのモデルは、局所領域の空間情報、外観情報、動作情報を組み込むことで、2 人の対話を認識するという課題に対処します。これを達成するために、インターバル フレーム サンプリング (IFS) という設計されたフレーム選択方法を導入します。これはビデオからフレームを効率的にサンプリングし、比較的短い処理時間でより多くの識別情報をキャプチャします。続いて、フレーム特徴学習モジュールと 2 ストリーム マルチレベル特徴集約モジュールが、サンプリングされたフレームから全体的特徴と部分特徴を抽出し、インタラクションに関連する局所領域の空間情報、外観情報、動き情報を効果的に表現します。最後に、最終的な分類のために学習された特徴に対してセルフアテンションを実行するためのトランスフォーマーを適用します。 NTU RGB+D 60 と NTU RGB+D 120 の相互作用サブセットである 2 つの大規模なデータセットに対して広範な実験が実施されました。その結果は、当社のネットワークがすべての標準評価設定にわたって最先端のアプローチよりも優れていることを示しています。
As a fundamental aspect of human life, two-person interactions contain meaningful information about people's activities, relationships, and social settings. Human action recognition serves as the foundation for many smart applications, with a strong focus on personal privacy. However, recognizing two-person interactions poses more challenges due to increased body occlusion and overlap compared to single-person actions. In this paper, we propose a point cloud-based network named Two-stream Multi-level Dynamic Point Transformer for two-person interaction recognition. Our model addresses the challenge of recognizing two-person interactions by incorporating local-region spatial information, appearance information, and motion information. To achieve this, we introduce a designed frame selection method named Interval Frame Sampling (IFS), which efficiently samples frames from videos, capturing more discriminative information in a relatively short processing time. Subsequently, a frame features learning module and a two-stream multi-level feature aggregation module extract global and partial features from the sampled frames, effectively representing the local-region spatial information, appearance information, and motion information related to the interactions. Finally, we apply a transformer to perform self-attention on the learned features for the final classification. Extensive experiments are conducted on two large-scale datasets, the interaction subsets of NTU RGB+D 60 and NTU RGB+D 120. The results show that our network outperforms state-of-the-art approaches across all standard evaluation settings.
updated: Sat Jul 22 2023 03:51:32 GMT+0000 (UTC)
published: Sat Jul 22 2023 03:51:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト