密な人間のポーズ推定は、RGB画像と人体の表面との間の密な対応を学習する問題であり、人体の再構築、人間のポーズの転送、人間の行動認識などのさまざまなアプリケーションが見つかります。以前の密なポーズ推定方法はすべてマスクR-CNNフレームワークに基づいており、最初に各人物の境界ボックスを識別し、各境界ボックスの密な対応を照合するというトップダウン方式で動作します。その結果、これらの方法は、マスクR-CNN検出に大きく依存するため、堅牢性に欠け、画像内の人物の数が増えると、実行時間が大幅に長くなります。したがって、Direct Dense Pose(DDP)と呼ばれる、高密度ポーズ推定問題を解決するための新しい代替方法を提案します。 DDPは、最初にインスタンスマスクとグローバルIUV表現を別々に予測し、次にそれらを組み合わせます。また、ビデオデータを処理する際の時間的ジッターを軽減するために、シンプルでありながら効果的な2D時間的平滑化スキームを提案します。実験は、DDPが以前のトップダウンベースライン方法の制限を克服し、競争力のある精度を達成することを示しています。さらに、DDPは、以前の高密度ポーズ推定方法よりも計算効率が高く、ビデオシーケンスに適用した場合のジッターを低減します。これは、以前の方法を悩ませていた問題です。
Dense human pose estimation is the problem of learning dense correspondences between RGB images and the surfaces of human bodies, which finds various applications, such as human body reconstruction, human pose transfer, and human action recognition. Prior dense pose estimation methods are all based on Mask R-CNN framework and operate in a top-down manner of first attempting to identify a bounding box for each person and matching dense correspondences in each bounding box. Consequently, these methods lack robustness due to their critical dependence on the Mask R-CNN detection, and the runtime increases drastically as the number of persons in the image increases. We therefore propose a novel alternative method for solving the dense pose estimation problem, called Direct Dense Pose (DDP). DDP first predicts the instance mask and global IUV representation separately and then combines them together. We also propose a simple yet effective 2D temporal-smoothing scheme to alleviate the temporal jitters when dealing with video data. Experiments demonstrate that DDP overcomes the limitations of previous top-down baseline methods and achieves competitive accuracy. In addition, DDP is computationally more efficient than previous dense pose estimation methods, and it reduces jitters when applied to a video sequence, which is a problem plaguing the previous methods.