Unsupervised 3D Human Mesh Recovery from Noisy Point Clouds
この論文は、ノイズの多い点群から人間の形とポーズを再構築するための新しい教師なしアプローチを提示します。従来のアプローチでは、対応を検索し、適切な初期化が重要な場合にモデルフィッティングを繰り返し実行します。最近の学習ベースのアプローチは、グラウンドトゥルースアノテーションを使用した大量のデータセットに依存して、点群上のすべての頂点の対応を予測します。面取り距離は通常、変形されたテンプレートモデルと入力点群の間の距離を最小化するために使用されます。ただし、面取り距離はノイズや外れ値に非常に敏感であるため、対応を割り当てるのは信頼できない可能性があります。これらの問題に対処するために、ガウス混合モデルの下でパラメトリック人間モデルから生成された入力点群の確率分布をモデル化します。対応を明示的に整列させる代わりに、入力が与えられたテンプレートモデルの事後確率を更新することにより、対応検索のプロセスを暗黙の確率的関連として扱います。変形されたテンプレートと事後確率を条件とする入力点群との間の不一致にペナルティを課す、新しい教師なし損失がさらに導き出されます。私たちのアプローチは非常に柔軟性があり、入力として単一の深度画像を含む完全な点群と不完全な点群の両方で機能します。私たちのネットワークは、教師ありデータでネットワークをウォームアップする必要なしに、ゼロからトレーニングされています。以前の教師なし方法と比較して、私たちの方法は、かなりのノイズと外れ値を処理する能力を示しています。さまざまな公開合成データセットと非常にノイズの多い実際のデータセット(CMU Panoptic)で実施された広範な実験は、最先端の方法よりも優れたアプローチのパフォーマンスを示しています。コードはで見つけることができます
This paper presents a novel unsupervised approach to reconstruct human shape and pose from noisy point cloud. Traditional approaches search for correspondences and conduct model fitting iteratively where a good initialization is critical. Relying on large amount of dataset with ground-truth annotations, recent learning-based approaches predict correspondences for every vertice on the point cloud; Chamfer distance is usually used to minimize the distance between a deformed template model and the input point cloud. However, Chamfer distance is quite sensitive to noise and outliers, thus could be unreliable to assign correspondences. To address these issues, we model the probability distribution of the input point cloud as generated from a parametric human model under a Gaussian Mixture Model. Instead of explicitly aligning correspondences, we treat the process of correspondence search as an implicit probabilistic association by updating the posterior probability of the template model given the input. A novel unsupervised loss is further derived that penalizes the discrepancy between the deformed template and the input point cloud conditioned on the posterior probability. Our approach is very flexible, which works with both complete point cloud and incomplete ones including even a single depth image as input. Our network is trained from scratch with no need to warm-up the network with supervised data. Compared to previous unsupervised methods, our method shows the capability to deal with substantial noise and outliers. Extensive experiments conducted on various public synthetic datasets as well as a very noisy real dataset (i.e. CMU Panoptic) demonstrate the superior performance of our approach over the state-of-the-art methods. Code can be found
updated: Thu Jul 15 2021 18:07:47 GMT+0000 (UTC)
published: Thu Jul 15 2021 18:07:47 GMT+0000 (UTC)
