arXiv reaDer
TexturePose: Supervising Human Mesh Estimation with Texture Consistency
  この作業は、モデルベースの人間の姿勢推定の問題に対処します。最近のアプローチは、パラメトリック人体モデルのパラメーターを画像から直接回帰する方向に大きく進歩しました。 3D形状のグラウンドトゥルースの画像が存在しないため、関連するアプローチは2Dアノテーションまたは高度なアーキテクチャ設計に依存しています。この作業では、より多くのキューを活用できることを提唱します。これは、自然な画像で無料で利用できます。つまり、注釈を追加したり、ネットワークアーキテクチャを変更したりすることはありません。私たちは、異なるフレーム(または視点)の間での人の外見の不変性を利用する、自然な形の監視を提案します。この一見取るに足りないようで、しばしば見落とされがちなキューは、モデルベースのポーズ推定に大いに役立ちます。採用するパラメトリックモデルにより、各フレームのテクスチャマップを計算できます。人のテクスチャがフレーム間で劇的に変化しないと仮定すると、新しいテクスチャ一貫性損失を適用できます。これにより、テクスチャマップの各ポイントがすべてのフレームで同じテクスチャ値を持つようになります。テクスチャはこの共通のテクスチャマップ空間で転送されるため、カメラモーションの計算は不要であり、フレーム間の滑らかさの仮定さえ必要ありません。これにより、提案された監視は、単眼ビデオからマルチビュー画像に至るまで、さまざまな設定に適用できます。私たちは、私たちと同じかそれ以上の注釈を必要とする強力なベースラインに対してアプローチをベンチマークし、一貫してそれらを凌outしています。同時に、さまざまなベンチマークでのモデルベースのポーズ推定アプローチの中で、最先端の結果を達成しています。ビデオ、結果、およびコードを含むプロジェクトWebサイトは、にあります。
This work addresses the problem of model-based human pose estimation. Recent approaches have made significant progress towards regressing the parameters of parametric human body models directly from images. Because of the absence of images with 3D shape ground truth, relevant approaches rely on 2D annotations or sophisticated architecture designs. In this work, we advocate that there are more cues we can leverage, which are available for free in natural images, i.e., without getting more annotations, or modifying the network architecture. We propose a natural form of supervision, that capitalizes on the appearance constancy of a person among different frames (or viewpoints). This seemingly insignificant and often overlooked cue goes a long way for model-based pose estimation. The parametric model we employ allows us to compute a texture map for each frame. Assuming that the texture of the person does not change dramatically between frames, we can apply a novel texture consistency loss, which enforces that each point in the texture map has the same texture value across all frames. Since the texture is transferred in this common texture map space, no camera motion computation is necessary, or even an assumption of smoothness among frames. This makes our proposed supervision applicable in a variety of settings, ranging from monocular video, to multi-view images. We benchmark our approach against strong baselines that require the same or even more annotations that we do and we consistently outperform them. Simultaneously, we achieve state-of-the-art results among model-based pose estimation approaches in different benchmarks. The project website with videos, results, and code can be found at
updated: Thu Oct 24 2019 17:55:31 GMT+0000 (UTC)
published: Thu Oct 24 2019 17:55:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト