arXiv reaDer
3D 人間の回復のために遊ぶ
Playing for 3D Human Recovery
画像およびビデオベースの 3D 人間の回復 (つまり、ポーズと形状の推定) は、大幅な進歩を遂げました。ただし、モーション キャプチャは法外なコストがかかるため、既存のデータセットは多くの場合、規模と多様性が制限されています。この作業では、自動的に注釈が付けられた 3D グラウンド トゥルースを使用してビデオ ゲームをプレイすることにより、大量の人間のシーケンスを取得します。具体的には、GTA-V ゲーム エンジンで生成された大規模な 3D ヒューマン データセットである GTA-Human に貢献しています。さらに重要なことは、ゲームプレイデータの使用を研究し、5 つの主要な洞察を得たことです。まず、ゲームプレイデータは驚くほど効果的です。 GTA-Human でトレーニングされた単純なフレームベースのベースラインは、より高度な方法よりも大幅に優れています。ビデオベースの方法では、GTA-Human はドメイン内トレーニング セットと同等です。次に、合成データが、通常は屋内で収集される実際のデータを補完する重要な要素であることを発見しました。ドメイン ギャップの調査により、シンプルでありながら有用なデータ混合戦略の説明が得られます。第三に、データセットの規模が重要です。パフォーマンスの向上は、利用可能な追加データと密接に関連しています。体系的な研究により、複数の重要な側面からデータ密度に対するモデルの感度が明らかになります。第 4 に、GTA-Human の有効性は強力な監視ラベル (SMPL パラメーター) の豊富なコレクションにも起因しています。第 5 に、合成データの利点は、より深い畳み込みニューラル ネットワーク (CNN) やトランスフォーマーなどの大規模なモデルにまで及び、これらのモデルにも大きな影響が見られます。私たちの仕事が、3D の人間の回復を現実の世界にスケールアップする道を開くことを願っています。ホームページ: https://caizhongang.github.io/projects/GTA-Human/
Image- and video-based 3D human recovery (i.e., pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity. In this work, we obtain massive human sequences by playing the video game with automatically annotated 3D ground truths. Specifically, we contribute GTA-Human, a large-scale 3D human dataset generated with the GTA-V game engine, featuring a highly diverse set of subjects, actions, and scenarios. More importantly, we study the use of game-playing data and obtain five major insights. First, game-playing data is surprisingly effective. A simple frame-based baseline trained on GTA-Human outperforms more sophisticated methods by a large margin. For video-based methods, GTA-Human is even on par with the in-domain training set. Second, we discover that synthetic data provides critical complements to the real data that is typically collected indoor. Our investigation into domain gap provides explanations for our data mixture strategies that are simple yet useful. Third, the scale of the dataset matters. The performance boost is closely related to the additional data available. A systematic study reveals the model sensitivity to data density from multiple key aspects. Fourth, the effectiveness of GTA-Human is also attributed to the rich collection of strong supervision labels (SMPL parameters), which are otherwise expensive to acquire in real datasets. Fifth, the benefits of synthetic data extend to larger models such as deeper convolutional neural networks (CNNs) and Transformers, for which a significant impact is also observed. We hope our work could pave the way for scaling up 3D human recovery to the real world. Homepage: https://caizhongang.github.io/projects/GTA-Human/
updated: Thu Aug 18 2022 17:58:02 GMT+0000 (UTC)
published: Thu Oct 14 2021 17:49:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト