合成トレーニングデータは、人間の姿勢推定などのタスクに有益であることが示されていますが、RGB人間の行動認識への使用は比較的検討されていません。この作業での私たちの目標は、合成人間が人間の行動認識のパフォーマンスを向上させることができるかどうかという質問に答えることであり、特に目に見えない視点への一般化に焦点を当てています。実際のアクションシーケンスからの単眼3D人体再構成の最近の進歩を利用して、アクションラベルの合成トレーニングビデオを自動的にレンダリングします。私たちは次の貢献をします。(i)新しい視点でパフォーマンスを向上させるのに有益なバリエーションと拡張の範囲を調査します。個人の体型や衣服の変化、不均一なフレームサンプリングなどのアクション関連の拡張、同じアクションを実行する個人の動きの間の補間を検討します。 (ii)アクション分類のための時空間CNNのトレーニングを可能にする新しいデータ生成方法論SURREACTを導入します。 (iii)NTU RGB + DおよびUESTC標準のヒューマンアクションマルチビューベンチマークでの最先端のアクション認識パフォーマンスを大幅に改善します。最後に、(iv)Kineticsデータセットのサブセットからのインザワイルドビデオへの拡張アプローチを拡張して、ワンショットトレーニングデータのみが利用可能な場合を調査し、この場合の改善も示します。
Although synthetic training data has been shown to be beneficial for tasks such as human pose estimation, its use for RGB human action recognition is relatively unexplored. Our goal in this work is to answer the question whether synthetic humans can improve the performance of human action recognition, with a particular focus on generalization to unseen viewpoints. We make use of the recent advances in monocular 3D human body reconstruction from real action sequences to automatically render synthetic training videos for the action labels. We make the following contributions: (i) we investigate the extent of variations and augmentations that are beneficial to improving performance at new viewpoints. We consider changes in body shape and clothing for individuals, as well as more action relevant augmentations such as non-uniform frame sampling, and interpolating between the motion of individuals performing the same action; (ii) We introduce a new data generation methodology, SURREACT, that allows training of spatio-temporal CNNs for action classification; (iii) We substantially improve the state-of-the-art action recognition performance on the NTU RGB+D and UESTC standard human action multi-view benchmarks; Finally, (iv) we extend the augmentation approach to in-the-wild videos from a subset of the Kinetics dataset to investigate the case when only one-shot training data is available, and demonstrate improvements in this case as well.