2D観測からの関節3D構造の回復は、多くのアプリケーションで困難なコンピュータービジョンの問題です。現在の学習ベースのアプローチは、パブリックベンチマークで最先端の精度を実現していますが、トレーニングデータセットでカバーされる特定の種類のオブジェクトとモーションに制限されています。モデルベースのアプローチは、トレーニングデータに依存していませんが、これらのデータセットの精度が低いことを示しています。この記事では、多関節運動(SfAM)と呼ばれるモデルベースの方法を紹介します。これは、大量のデータ収集のトレーニングなしで複数のオブジェクトと運動タイプを回復できます。同時に、公開ベンチマークでの学習ベースの最先端のアプローチと同等のパフォーマンスを発揮し、以前の非剛体構造運動(NRSfM)メソッドよりも優れています。 SfAMは、汎用NRSfM技術に基づいて構築され、骨の長さに対する柔らかい時空間的制約を統合します。交互最適化戦略を使用して、一連のフレームにわたって骨の長さの一貫性を強制することにより、最適なジオメトリ(つまり、骨の割合)を3D関節位置とともに回復します。 SfAMは、ノイズの多い2Dアノテーションに対して非常に堅牢であり、任意のオブジェクトに一般化され、トレーニングデータに依存しません。これは、パブリックベンチマークと実際のビデオシーケンスに関する広範な実験で示されています。人間のモーションキャプチャを含む、関節構造の単眼3D回復の領域に新しい視点をもたらすと信じています。
Recovery of articulated 3D structure from 2D observations is a challenging computer vision problem with many applications. Current learning-based approaches achieve state-of-the-art accuracy on public benchmarks but are restricted to specific types of objects and motions covered by the training datasets. Model-based approaches do not rely on training data but show lower accuracy on these datasets. In this paper, we introduce a model-based method called Structure from Articulated Motion (SfAM), which can recover multiple object and motion types without training on extensive data collections. At the same time, it performs on par with learning-based state-of-the-art approaches on public benchmarks and outperforms previous non-rigid structure from motion (NRSfM) methods. SfAM is built upon a general-purpose NRSfM technique while integrating a soft spatio-temporal constraint on the bone lengths. We use alternating optimization strategy to recover optimal geometry (i.e., bone proportions) together with 3D joint positions by enforcing the bone lengths consistency over a series of frames. SfAM is highly robust to noisy 2D annotations, generalizes to arbitrary objects and does not rely on training data, which is shown in extensive experiments on public benchmarks and real video sequences. We believe that it brings a new perspective on the domain of monocular 3D recovery of articulated structures, including human motion capture.