arXiv reaDer
A generalizable approach for multi-view 3D human pose regression
  単眼姿勢推定アプローチのパフォーマンスと目に見えない環境に一般化する能力の大幅な改善にもかかわらず、マルチビュー(MV)アプローチはしばしば精度の点で遅れており、特定のデータセットに固有です。これは主に、(1)現実世界のシングルビュー(SV)データセットに反して、MVデータセットが制御された環境でキャプチャされ、正確な3D注釈を収集することが多く、現実世界のすべての課題をカバーしていないこと、および(2)モデルパラメータは、特定のカメラのセットアップ用に学習されます。これらの問題を軽減するために、SVポーズ検出とMV 3Dポーズ推定を分離する、3次元の人間のポーズを検出および推定する2段階のアプローチを提案します。この分離により、適切なタスクに各データセット、つまりロバストな姿勢検出モデルを構築するSVデータセットと、正確なMV 3D回帰モデルを構築するMVデータセットを利用できます。さらに、3D回帰アプローチでは、モデルを構築するために3Dポーズデータとビューへの投影のみが必要となるため、テストセットアップから注釈付きデータを収集する必要がなくなります。したがって、テスト時に使用したカメラの設定に従って、トレーニング中に3Dポーズを2Dに投影するだけで、このアプローチを新しい環境に簡単に一般化できます。不正確な検出を生成する可能性のあるSVポーズ検出器を使用してテスト時に2Dポーズが収集されるため、トレーニング中にその特性をモデル化し、この情報を組み込みます。堅牢な3D回帰モデルを構築するには検出器の特性を組み込むことが重要であり、結果の回帰モデルが新しいMV環境に一般化できることを実証します。評価結果は、このアプローチがHuman3.6Mデータセットで競争力のある結果を達成し、ライブ手術記録から生成された最初のMVデータセットであるMV臨床データセットの結果を大幅に改善することを示しています。
Despite the significant improvement in the performance of monocular pose estimation approaches and their ability to generalize to unseen environments, multi-view (MV) approaches are often lagging behind in terms of accuracy and are specific to certain datasets. This is mainly due to the fact that (1) contrary to real world single-view (SV) datasets, MV datasets are often captured in controlled environments to collect precise 3D annotations, which do not cover all real world challenges, and (2) the model parameters are learned for specific camera setups. To alleviate these problems, we propose a two-stage approach to detect and estimate 3D human poses, which separates SV pose detection from MV 3D pose estimation. This separation enables us to utilize each dataset for the right task, i.e. SV datasets for constructing robust pose detection models and MV datasets for constructing precise MV 3D regression models. In addition, our 3D regression approach only requires 3D pose data and its projections to the views for building the model, hence removing the need for collecting annotated data from the test setup. Our approach can therefore be easily generalized to a new environment by simply projecting 3D poses into 2D during training according to the camera setup used at test time. As 2D poses are collected at test time using a SV pose detector, which might generate inaccurate detections, we model its characteristics and incorporate this information during training. We demonstrate that incorporating the detector's characteristics is important to build a robust 3D regression model and that the resulting regression model generalizes well to new MV environments. Our evaluation results show that our approach achieves competitive results on the Human3.6M dataset and significantly improves results on a MV clinical dataset that is the first MV dataset generated from live surgery recordings.
updated: Tue Oct 08 2019 15:15:51 GMT+0000 (UTC)
published: Fri Apr 27 2018 12:14:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト