arXiv reaDer
DMMG: 自己教師ありスケルトンベースのアクション認識のためのデュアル最小最大ゲーム
DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action Recognition
この作業では、対照的な学習フレームワークでラベル付けされていないデータを拡張することにより、新しい Dual Min-Max Games (DMMG) ベースの自己教師付きスケルトン アクション認識方法を提案します。私たちの DMMG は、視点変動の最小最大ゲームとエッジ摂動の最小最大ゲームで構成されています。これら 2 つの最小最大ゲームは、敵対的パラダイムを採用して、それぞれスケルトン シーケンスとグラフ構造のボディ ジョイントに対してデータ拡張を実行します。私たちの視点変動ミニマックス ゲームは、さまざまな視点からスケルトン シーケンスを生成することによって、さまざまなハード コントラスト ペアを構築することに焦点を当てています。これらのハード コントラスト ペアは、モデルが代表的なアクション機能を学習するのに役立ち、下流のタスクへのモデルの転送を容易にします。さらに、エッジ摂動最小最大ゲームは、グラフベースのボディ ジョイント間の接続強度を摂動することによって、多様なハード コントラスト サンプルの構築を専門としています。接続強度が変化する対照的なペアにより、モデルは、モデルのオーバーフィッティングを防ぎながら、アクションの代表的なジェスチャーなど、さまざまなアクションの最小限の十分な情報をキャプチャできます。提案されたDMMGを十分に活用することで、十分な挑戦的な対比ペアを生成し、ラベルのないスケルトンデータから自己教師付きの方法で識別可能なアクション機能の表現を実現できます。広範な実験により、広く使用されているNTU-RGB + DおよびNTU120-RGB + Dデータセットのさまざまな評価プロトコルの下で、この方法が優れた結果を達成することが実証されています。
In this work, we propose a new Dual Min-Max Games (DMMG) based self-supervised skeleton action recognition method by augmenting unlabeled data in a contrastive learning framework. Our DMMG consists of a viewpoint variation min-max game and an edge perturbation min-max game. These two min-max games adopt an adversarial paradigm to perform data augmentation on the skeleton sequences and graph-structured body joints, respectively. Our viewpoint variation min-max game focuses on constructing various hard contrastive pairs by generating skeleton sequences from various viewpoints. These hard contrastive pairs help our model learn representative action features, thus facilitating model transfer to downstream tasks. Moreover, our edge perturbation min-max game specializes in building diverse hard contrastive samples through perturbing connectivity strength among graph-based body joints. The connectivity-strength varying contrastive pairs enable the model to capture minimal sufficient information of different actions, such as representative gestures for an action while preventing the model from overfitting. By fully exploiting the proposed DMMG, we can generate sufficient challenging contrastive pairs and thus achieve discriminative action feature representations from unlabeled skeleton data in a self-supervised manner. Extensive experiments demonstrate that our method achieves superior results under various evaluation protocols on widely-used NTU-RGB+D and NTU120-RGB+D datasets.
updated: Wed Feb 22 2023 08:53:11 GMT+0000 (UTC)
published: Wed Feb 22 2023 08:53:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト