arXiv reaDer
自己監視型行動認識のための敵対的共同学習と協調学習
Joint Adversarial and Collaborative Learning for Self-Supervised Action Recognition
インスタンスレベルの識別能力を考慮して、MoCo や SimCLR などの対照的学習方法が元の画像表現学習タスクから適応されて、自己教師付きスケルトンベースの行動認識タスクを解決しました。これらの方法は通常、アンサンブル学習に複数のデータ ストリーム (関節、動作、骨など) を使用しますが、一方で、単一ストリーム内で識別特徴空間を構築し、複数のストリームからの情報を効果的に集約する方法は未解決の問題のままです。この目的を達成するために、まず BYOL と呼ばれる新しい対照学習方法を適用してスケルトン データから学習し、自己教師付きスケルトン ベースのアクション認識のためのシンプルかつ効果的なベースラインとして SkeletonBYOL を定式化します。 SkeletonBYOL からインスピレーションを得て、クロスモデル敵対学習 (CMAL) とクロスストリーム協調学習 (CSCL) を組み合わせた、共同敵対的協調学習 (ACL) フレームワークをさらに紹介します。具体的には、CMAL はクロスモデルの敵対的損失によって単一ストリーム表現を学習し、より識別的な特徴を取得します。マルチストリーム情報を集約して操作するために、CSCL は、個々のストリームの監視およびガイド機能生成としてアンサンブル学習の類似性擬似ラベルを生成することによって設計されています。 3 つのデータセットに対する徹底的な実験により、CMAL と CSCL の間の相補的な特性が検証され、また、私たちの手法がさまざまな評価プロトコルを使用した最先端の手法に対して有利に実行できることも検証されました。私たちのコードとモデルは https://github.com/Levigty/ACL で公開されています。
Considering the instance-level discriminative ability, contrastive learning methods, including MoCo and SimCLR, have been adapted from the original image representation learning task to solve the self-supervised skeleton-based action recognition task. These methods usually use multiple data streams (i.e., joint, motion, and bone) for ensemble learning, meanwhile, how to construct a discriminative feature space within a single stream and effectively aggregate the information from multiple streams remains an open problem. To this end, we first apply a new contrastive learning method called BYOL to learn from skeleton data and formulate SkeletonBYOL as a simple yet effective baseline for self-supervised skeleton-based action recognition. Inspired by SkeletonBYOL, we further present a joint Adversarial and Collaborative Learning (ACL) framework, which combines Cross-Model Adversarial Learning (CMAL) and Cross-Stream Collaborative Learning (CSCL). Specifically, CMAL learns single-stream representation by cross-model adversarial loss to obtain more discriminative features. To aggregate and interact with multi-stream information, CSCL is designed by generating similarity pseudo label of ensemble learning as supervision and guiding feature generation for individual streams. Exhaustive experiments on three datasets verify the complementary properties between CMAL and CSCL and also verify that our method can perform favorably against state-of-the-art methods using various evaluation protocols. Our code and models are publicly available at https://github.com/Levigty/ACL.
updated: Sat Jul 15 2023 12:37:18 GMT+0000 (UTC)
published: Sat Jul 15 2023 12:37:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト