arXiv reaDer
人間の運動表現の学習: 統一された視点
Learning Human Motion Representations: A Unified Perspective
大規模で異種のデータリソースから人間の動きの表現を学習することにより、さまざまな人間中心のビデオタスクに取り組むための統一された視点を提示します。具体的には、ノイズの多い部分的な 2D 観測から基になる 3D モーションを回復するようにモーション エンコーダーをトレーニングする事前トレーニング ステージを提案します。この方法で取得されたモーション表現には、人間のモーションに関する幾何学的、運動学的、および物理的な知識が組み込まれており、複数のダウンストリーム タスクに簡単に転送できます。デュアル ストリーム時空間トランスフォーマー (DSTformer) ニューラル ネットワークを使用してモーション エンコーダーを実装します。骨格関節間の長期の時空間関係を包括的かつ適応的にキャプチャできます。これは、ゼロからトレーニングした場合、これまでで最も低い 3D 姿勢推定エラーによって実証されています。さらに、提案されたフレームワークは、事前トレーニング済みのモーション エンコーダーを単純な回帰ヘッド (1 ~ 2 レイヤー) で微調整するだけで、3 つのダウンストリーム タスクすべてで最先端のパフォーマンスを実現します。これは、学習したモーション表現の多様性を示しています。
We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations.
updated: Wed Mar 22 2023 06:34:14 GMT+0000 (UTC)
published: Wed Oct 12 2022 19:46:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト