arXiv reaDer
人間のメッシュ回復のための局所反復モデルの学習
Learning Local Recurrent Models for Human Mesh Recovery
自然な動きのダイナミクスを持つ人物のビデオを前提として、フレームレベルの人体全体のメッシュを推定する問題を検討します。この分野では、単一画像ベースのメッシュ推定で多くの進歩が見られましたが、深度のあいまいさやオクルージョンなどの問題を軽減する役割があるため、ビデオからメッシュダイナミクスを推測する取り組みが最近増加しています。ただし、既存の作業の重要な制限は、観測されたすべてのモーションダイナミクスを1つの動的/反復モデルを使用してモデル化できるという仮定です。これは、ダイナミクスが比較的単純な場合にはうまく機能する可能性がありますが、実際のビデオでの推論には多くの課題があります。特に、典型的には、人の異なる身体部分がビデオ内で異なるダイナミクスを受ける場合であり、例えば、脚は、手とは動的に異なる可能性がある方法で動く可能性がある(例えば、踊る人)。これらの問題に対処するために、標準の骨格モデルに従って人間のメッシュをいくつかのローカルパーツに分割するビデオメッシュ回復の新しい方法を紹介します。次に、人体の既知の運動学的構造に基づいて適切に調整された各モデルを使用して、個別の反復モデルを使用して各局所部分のダイナミクスをモデル化します。これにより、利用可能な注釈を使用してエンドツーエンドの方法でトレーニングできる、構造に基づいたローカルの反復学習アーキテクチャが実現します。 Human3.6M、MPI-INF-3DHP、3DPWなどの標準的なビデオメッシュリカバリベンチマークデータセットでさまざまな実験を実施し、ローカルダイナミクスのモデリングと最先端の結果の確立の設計の有効性を実証します。標準の評価指標に基づいています。
We consider the problem of estimating frame-level full human body meshes given a video of a person with natural motion dynamics. While much progress in this field has been in single image-based mesh estimation, there has been a recent uptick in efforts to infer mesh dynamics from video given its role in alleviating issues such as depth ambiguity and occlusions. However, a key limitation of existing work is the assumption that all the observed motion dynamics can be modeled using one dynamical/recurrent model. While this may work well in cases with relatively simplistic dynamics, inference with in-the-wild videos presents many challenges. In particular, it is typically the case that different body parts of a person undergo different dynamics in the video, e.g., legs may move in a way that may be dynamically different from hands (e.g., a person dancing). To address these issues, we present a new method for video mesh recovery that divides the human mesh into several local parts following the standard skeletal model. We then model the dynamics of each local part with separate recurrent models, with each model conditioned appropriately based on the known kinematic structure of the human body. This results in a structure-informed local recurrent learning architecture that can be trained in an end-to-end fashion with available annotations. We conduct a variety of experiments on standard video mesh recovery benchmark datasets such as Human3.6M, MPI-INF-3DHP, and 3DPW, demonstrating the efficacy of our design of modeling local dynamics as well as establishing state-of-the-art results based on standard evaluation metrics.
updated: Tue Jul 27 2021 14:30:33 GMT+0000 (UTC)
published: Tue Jul 27 2021 14:30:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト