arXiv reaDer
複数人の3Dポーズ推定のための動的グラフ推論
Dynamic Graph Reasoning for Multi-person 3D Pose Estimation
複数人の3Dポーズ推定は、特に群集シーンの場合、オクルージョンと深度のあいまいさのために困難な作業です。これらの問題を解決するために、ほとんどの既存の方法は、グラフニューラルネットワークで特徴表現を強化するか、構造的制約を追加することによって、身体のコンテキストキューのモデリングを調査します。ただし、これらの方法は、事前定義されたグラフを使用してルートノードから3Dポーズをデコードする単一ルートの定式化に対して堅牢ではありません。本論文では、動的グラフ推論による多人数3Dポーズ推定をモデル化するGR-M3Dを提案する。 GR-M3Dのデコードグラフは、事前定義ではなく予測されます。特に、最初にいくつかのデータマップを生成し、スケールと深度を意識したリファインメントモジュール(SDAR)でそれらを拡張します。次に、これらのデータマップから、各人物の複数のルートキーポイントと高密度のデコードパスが推定されます。それらに基づいて、動的デコードグラフは、パスの重みをデコードパスに割り当てることによって作成され、パスの重みはそれらの拡張データマップから推測されます。そして、このプロセスは動的グラフ推論(DGR)と呼ばれます。最後に、3Dポーズは、検出された各人物の動的デコードグラフに従ってデコードされます。 GR-M3Dは、入力データに応じてソフトパスの重みを採用することで、デコードグラフの構造を暗黙的に調整できます。これにより、デコードグラフは、さまざまな入力者に最適に適応でき、以前の方法よりもオクルージョンと深度のあいまいさを処理できます。提案されたボトムアップアプローチがトップダウン手法よりも優れており、3つの3Dポーズデータセットで最先端の結果を達成することを経験的に示しています。
Multi-person 3D pose estimation is a challenging task because of occlusion and depth ambiguity, especially in the cases of crowd scenes. To solve these problems, most existing methods explore modeling body context cues by enhancing feature representation with graph neural networks or adding structural constraints. However, these methods are not robust for their single-root formulation that decoding 3D poses from a root node with a pre-defined graph. In this paper, we propose GR-M3D, which models the Multi-person 3D pose estimation with dynamic Graph Reasoning. The decoding graph in GR-M3D is predicted instead of pre-defined. In particular, It firstly generates several data maps and enhances them with a scale and depth aware refinement module (SDAR). Then multiple root keypoints and dense decoding paths for each person are estimated from these data maps. Based on them, dynamic decoding graphs are built by assigning path weights to the decoding paths, while the path weights are inferred from those enhanced data maps. And this process is named dynamic graph reasoning (DGR). Finally, the 3D poses are decoded according to dynamic decoding graphs for each detected person. GR-M3D can adjust the structure of the decoding graph implicitly by adopting soft path weights according to input data, which makes the decoding graphs be adaptive to different input persons to the best extent and more capable of handling occlusion and depth ambiguity than previous methods. We empirically show that the proposed bottom-up approach even outperforms top-down methods and achieves state-of-the-art results on three 3D pose datasets.
updated: Sat Aug 06 2022 03:05:58 GMT+0000 (UTC)
published: Fri Jul 22 2022 21:20:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト