arXiv reaDer
トップダウンネットワークとボトムアップネットワークを統合することによる単眼3Dマルチパーソンポーズ推定
Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and Bottom-Up Networks
単眼ビデオの3Dマルチパーソンポーズ推定では、個人間のオクルージョンと密接な相互作用により、人間の検出が誤って、人間の関節のグループ化が信頼できない可能性があります。既存のトップダウン方式は人間の検出に依存しているため、これらの問題に悩まされています。既存のボトムアップ方式は人間の検出を使用しませんが、すべての人を同じスケールで一度に処理するため、複数の人のスケールの変動に敏感になります。これらの課題に対処するために、トップダウンとボトムアップのアプローチを統合して、それらの長所を活用することを提案します。私たちのトップダウンネットワークは、画像パッチ内の1つではなく、すべての人から人間の関節を推定し、誤った境界ボックスの可能性に対して堅牢にします。当社のボトムアップネットワークには、人間検出ベースの正規化されたヒートマップが組み込まれているため、ネットワークはスケール変動の処理においてより堅牢になります。最後に、トップダウンおよびボトムアップネットワークから推定された3Dポーズが、最終的な3Dポーズのために統合ネットワークに送られます。トップダウンネットワークとボトムアップネットワークの統合に加えて、1人専用に設計されているため、自然な対人相互作用を評価できない既存のポーズ弁別器とは異なり、自然な2人の相互作用を強制する2人のポーズ弁別器を提案します。 。最後に、半教師あり手法を適用して、3Dグラウンドトゥルースデータの不足を克服します。私たちの定量的および定性的評価は、最先端のベースラインと比較した私たちの方法の有効性を示しています。
In monocular video 3D multi-person pose estimation, inter-person occlusion and close interactions can cause human detection to be erroneous and human-joints grouping to be unreliable. Existing top-down methods rely on human detection and thus suffer from these problems. Existing bottom-up methods do not use human detection, but they process all persons at once at the same scale, causing them to be sensitive to multiple-persons scale variations. To address these challenges, we propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. Besides the integration of top-down and bottom-up networks, unlike existing pose discriminators that are designed solely for single person, and consequently cannot assess natural inter-person interactions, we propose a two-person pose discriminator that enforces natural two-person interactions. Lastly, we also apply a semi-supervised method to overcome the 3D ground-truth data scarcity. Our quantitative and qualitative evaluations show the effectiveness of our method compared to the state-of-the-art baselines.
updated: Mon Apr 05 2021 07:05:21 GMT+0000 (UTC)
published: Mon Apr 05 2021 07:05:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト