arXiv reaDer
3D人間ポーズ推定フレームワークの咬合処理能力の定量化
Quantification of Occlusion Handling Capability of a 3D Human Pose Estimation Framework
単眼画像を使用した3D人間の姿勢推定は、重要でありながら困難な作業です。既存の3Dポーズ検出方法は、通常の条件下で優れたパフォーマンスを発揮しますが、オクルージョンによりパフォーマンスが低下する可能性があります。最近、いくつかのオクルージョン認識方法も提案されていますが、これらのネットワークのオクルージョン処理機能はまだ徹底的に調査されていません。現在の作業では、オクルージョンガイド付き3D人間ポーズ推定フレームワークを提案し、さまざまなプロトコルを使用してそのオクルージョン処理機能を定量化します。提案された方法は、入力として関節が欠落している2Dスケルトンを使用して、より正確な3D人間のポーズを推定します。欠落している関節は、関節の有無に関する追加情報を提供する閉塞ガイダンスを導入することによって処理されます。欠落している関節をより正確に推定するために、時間情報も利用されています。関節あたりの平均位置誤差基準を使用して、ランダムな関節の欠落、固定された身体部分の欠落、完全なフレームの欠落など、さまざまな設定で公開されている3つのデータセットに対して、提案された方法の咬合処理能力を定量化するために多数の実験が実行されます。それに加えて、予測された3Dポーズの品質も、アクション分類パフォーマンスを基準として使用して評価されます。提案された方法によって推定された3Dポーズは、欠落した関節の存在下で著しく改善された行動認識性能を達成した。私たちの実験は、欠落している関節を処理するための提案されたフレームワークの有効性と、深部ニューラルネットワークの閉塞処理能力の定量化を示しています。
3D human pose estimation using monocular images is an important yet challenging task. Existing 3D pose detection methods exhibit excellent performance under normal conditions however their performance may degrade due to occlusion. Recently some occlusion aware methods have also been proposed, however, the occlusion handling capability of these networks has not yet been thoroughly investigated. In the current work, we propose an occlusion-guided 3D human pose estimation framework and quantify its occlusion handling capability by using different protocols. The proposed method estimates more accurate 3D human poses using 2D skeletons with missing joints as input. Missing joints are handled by introducing occlusion guidance that provides extra information about the absence or presence of a joint. Temporal information has also been exploited to better estimate the missing joints. A large number of experiments are performed for the quantification of occlusion handling capability of the proposed method on three publicly available datasets in various settings including random missing joints, fixed body parts missing, and complete frames missing, using mean per joint position error criterion. In addition to that, the quality of the predicted 3D poses is also evaluated using action classification performance as a criterion. 3D poses estimated by the proposed method achieved significantly improved action recognition performance in the presence of missing joints. Our experiments demonstrate the effectiveness of the proposed framework for handling the missing joints as well as quantification of the occlusion handling capability of the deep neural networks.
updated: Tue Mar 08 2022 14:35:46 GMT+0000 (UTC)
published: Tue Mar 08 2022 14:35:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト