arXiv reaDer
単眼3Dマルチパーソンポーズ推定のための相互適応推論
Mutual Adaptive Reasoning for Monocular 3D Multi-Person Pose Estimation
個人間のオクルージョンと深度のあいまいさにより、カメラ中心の座標として単眼の複数の人物の3Dポーズを推定することは困難な問題になります。一般的なトップダウンフレームワークは、追加の検出ステージを備えた高い計算冗長性に悩まされています。対照的に、ボトムアップ方式は、人間の数による影響が少ないため、計算コストが低くなります。ただし、ほとんどの既存のボトムアップ手法では、カメラ中心の3D人間ポーズ推定を、2.5Dポーズ推定とカメラ中心の深度推定という2つの無関係なサブタスクとして扱います。この論文では、これら両方のサブタスクの相互利益を活用する統合モデルを提案します。フレームワーク内で、堅牢な構造化された2.5Dポーズ推定は、深度の関係に基づいて個人間のオクルージョンを認識するように設計されています。さらに、2.5Dポーズとカメラ中心のルート深度の両方の相互利点を活用する、エンドツーエンドのジオメトリ対応深度推論方法を開発します。この方法では、最初に2.5Dポーズとジオメトリ情報を使用して、フォワードパスでカメラ中心のルート深度を推測し、次にルート深度を利用して、バックワードパスでの2.5Dポーズ推定の表現学習をさらに改善します。さらに、視覚と体の形状の両方を活用して、固有の深さのあいまいさの問題を軽減する適応融合スキームを設計しました。広範な実験により、提案されたモデルが幅広いボトムアップ手法よりも優れていることが実証されています。私たちの精度は、トップダウンの対応物とさえ競争力があります。特に、私たちのモデルは、既存のボトムアップおよびトップダウンの方法よりもはるかに高速に実行されます。
Inter-person occlusion and depth ambiguity make estimating the 3D poses of monocular multiple persons as camera-centric coordinates a challenging problem. Typical top-down frameworks suffer from high computational redundancy with an additional detection stage. By contrast, the bottom-up methods enjoy low computational costs as they are less affected by the number of humans. However, most existing bottom-up methods treat camera-centric 3D human pose estimation as two unrelated subtasks: 2.5D pose estimation and camera-centric depth estimation. In this paper, we propose a unified model that leverages the mutual benefits of both these subtasks. Within the framework, a robust structured 2.5D pose estimation is designed to recognize inter-person occlusion based on depth relationships. Additionally, we develop an end-to-end geometry-aware depth reasoning method that exploits the mutual benefits of both 2.5D pose and camera-centric root depths. This method first uses 2.5D pose and geometry information to infer camera-centric root depths in a forward pass, and then exploits the root depths to further improve representation learning of 2.5D pose estimation in a backward pass. Further, we designed an adaptive fusion scheme that leverages both visual perception and body geometry to alleviate inherent depth ambiguity issues. Extensive experiments demonstrate the superiority of our proposed model over a wide range of bottom-up methods. Our accuracy is even competitive with top-down counterparts. Notably, our model runs much faster than existing bottom-up and top-down methods.
updated: Sat Jul 16 2022 10:54:40 GMT+0000 (UTC)
published: Sat Jul 16 2022 10:54:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト