arXiv reaDer
単眼ビデオからのデュアルネットワークベースの3Dマルチパーソンポーズ推定
Dual networks based 3D Multi-Person Pose Estimation from Monocular Video
トップダウンとボトムアップのアプローチを統合して、それぞれの長所を活用することを提案します。私たちのトップダウンネットワークは、画像パッチ内の1つではなく、すべての人から人間の関節を推定し、誤った境界ボックスの可能性に対して堅牢にします。当社のボトムアップネットワークには、人間の検出に基づく正規化されたヒートマップが組み込まれているため、ネットワークはスケールの変動をより堅牢に処理できます。最後に、トップダウンおよびボトムアップネットワークから推定された3Dポーズは、最終的な3Dポーズのために統合ネットワークに送られます。トレーニングデータとテストデータの間の一般的なギャップに対処するために、高次の時間的制約、再投影損失、および骨の長さの正則化を使用して、推定された3D人間のポーズを調整することにより、テスト時間中に最適化を行います。また、自然な2人の相互作用を強制する2人のポーズ弁別器を紹介します。最後に、半教師あり手法を適用して、3Dグラウンドトゥルースデータの不足を克服します。
We propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. To address the common gaps between training and testing data, we do optimization during the test time, by refining the estimated 3D human poses using high-order temporal constraint, re-projection loss, and bone length regularization. We also introduce a two-person pose discriminator that enforces natural two-person interactions. Finally, we apply a semi-supervised method to overcome the 3D ground-truth data scarcity.
updated: Mon May 02 2022 08:53:38 GMT+0000 (UTC)
published: Mon May 02 2022 08:53:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト