arXiv reaDer
対照的なクロスビュー相互情報量の最大化によるビューの解きほぐされた人間のポーズ表現の学習
Learning View-Disentangled Human Pose Representation by Contrastive Cross-View Mutual Information Maximization
2D人間のポーズからポーズ依存およびビュー依存の要因を解きほぐすための新しい表現学習方法を紹介します。この方法は、対照的な学習方法で異なる視点から実行された同じポーズの相互情報量を最大化するクロスビュー相互情報量最大化(CV-MIM)を使用してネットワークをトレーニングします。さらに、学習した表現のもつれを解き、滑らかにするために、2つの正則化項を提案します。結果として得られるポーズ表現は、クロスビューアクション認識に使用できます。学習された表現の力を評価するために、従来の完全に監視された行動認識設定に加えて、シングルショットクロスビュー行動認識と呼ばれる新しいタスクを紹介します。このタスクは、単一の視点からのアクションでモデルをトレーニングし、モデルはすべての可能な視点からキャプチャされたポーズで評価されます。行動認識の標準ベンチマークで学習した表現を評価し、次のことを示します。(i)CV-MIMは、完全に監視されたシナリオで最先端のモデルと比較して競争力のあるパフォーマンスを発揮します。 (ii)CV-MIMは、シングルショットクロスビュー設定で他の競合する方法よりも大幅に優れています。 (iii)学習された表現は、監視対象のトレーニングデータの量を減らすと、パフォーマンスを大幅に向上させることができます。私たちのコードはhttps://github.com/google-research/google-research/tree/master/poemで公開されています
We introduce a novel representation learning method to disentangle pose-dependent as well as view-dependent factors from 2D human poses. The method trains a network using cross-view mutual information maximization (CV-MIM) which maximizes mutual information of the same pose performed from different viewpoints in a contrastive learning manner. We further propose two regularization terms to ensure disentanglement and smoothness of the learned representations. The resulting pose representations can be used for cross-view action recognition. To evaluate the power of the learned representations, in addition to the conventional fully-supervised action recognition settings, we introduce a novel task called single-shot cross-view action recognition. This task trains models with actions from only one single viewpoint while models are evaluated on poses captured from all possible viewpoints. We evaluate the learned representations on standard benchmarks for action recognition, and show that (i) CV-MIM performs competitively compared with the state-of-the-art models in the fully-supervised scenarios; (ii) CV-MIM outperforms other competing methods by a large margin in the single-shot cross-view setting; (iii) and the learned representations can significantly boost the performance when reducing the amount of supervised training data. Our code is made publicly available at https://github.com/google-research/google-research/tree/master/poem
updated: Fri Mar 26 2021 04:05:44 GMT+0000 (UTC)
published: Wed Dec 02 2020 18:55:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト