arXiv reaDer
3D人間の回復のために遊ぶ
Playing for 3D Human Recovery
画像およびビデオベースの3D人間の回復(つまり、ポーズと形状の推定)は、大幅な進歩を遂げました。ただし、モーションキャプチャのコストが法外に高いため、既存のデータセットはスケールと多様性が制限されていることが多く、より強力なモデルのさらなる開発を妨げています。この作品では、ビデオゲームをプレイすることにより、大規模な人間のシーケンスとその3Dグラウンドトゥルースを取得します。具体的には、GTA-Vゲームエンジンで生成されたメガスケールで非常に多様な3D人間データセットであるGTA-Humanに貢献します。 GTA-Humanは、豊富なテーマ、アクション、シナリオを備えており、効果的なトレーニングソースとして機能します。特に、「データの不当な有効性」現象は、ゲームプレイデータを使用した3D人間の回復で検証されます。 GTA-Humanでトレーニングされた単純なフレームベースのベースラインは、すでにより洗練された方法を大幅に上回っています。ビデオベースの方法の場合、GTA-Humanは、ドメイン内のトレーニングセットよりも優れていることを示しています。同じ一貫した改善を観察するために、より大きなモデルに研究を拡張します。監視信号に関する研究は、SMPLアノテーションの豊富なコレクションが重要であることを示唆しています。さらに、GTA-Humanの多様な注釈を備えており、カメラアングル、ポーズ、オクルージョンなど、実世界のさまざまなバリエーションの下でさまざまな方法のパフォーマンスを体系的に調査します。私たちの仕事が、3D人間の回復を現実の世界にスケールアップする道を開くことを願っています。
Image- and video-based 3D human recovery (i.e. pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity, which hinders the further development of more powerful models. In this work, we obtain massive human sequences as well as their 3D ground truths by playing video games. Specifically, we contribute, GTA-Human, a mega-scale and highly-diverse 3D human dataset generated with the GTA-V game engine. With a rich set of subjects, actions, and scenarios, GTA-Human serves as both an effective training source. Notably, the "unreasonable effectiveness of data" phenomenon is validated in 3D human recovery using our game-playing data. A simple frame-based baseline trained on GTA-Human already outperforms more sophisticated methods by a large margin; for video-based methods, GTA-Human demonstrates superiority over even the in-domain training set. We extend our study to larger models to observe the same consistent improvements, and the study on supervision signals suggests the rich collection of SMPL annotations is key. Furthermore, equipped with the diverse annotations in GTA-Human, we systematically investigate the performance of various methods under a wide spectrum of real-world variations, e.g. camera angles, poses, and occlusions. We hope our work could pave way for scaling up 3D human recovery to the real world.
updated: Thu Oct 14 2021 17:49:42 GMT+0000 (UTC)
published: Thu Oct 14 2021 17:49:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト