密な姿勢推定は、インスタンス レベルの人間分析のための密な 3D 予測タスクであり、人間のピクセルを RGB 画像から人体の 3D 表面にマッピングすることを目的としています。表面点回帰が大量にあるため、トレーニング プロセスは、他の地域ベースのヒューマン インスタンス分析タスクと比較して崩壊しやすいようです。既存の密なポーズ推定モデルの損失定式化を分析することにより、トレーニングの進行を安定させるために、Dense Points} 損失と名付けられた新しい点回帰損失関数と、マルチタスク損失を処理するための新しいバランスのとれた損失重み付け戦略を導入します。上記の新規性により、UV R-CNN という名前のまったく新しいアーキテクチャを提案します。補助的な監督や他のタスクからの外部知識がなくても、UV R-CNN は、密な姿勢モデルのトレーニングの進行における多くの複雑な問題を処理でき、ResNet-50-FPN 特徴抽出器を使用して、DensePose-COCO 検証サブセットで 65.0% AP_gps および 66.1% AP_gpsm を達成します。最先端の密な人間の姿勢推定方法の中で競争力があります。
Dense pose estimation is a dense 3D prediction task for instance-level human analysis, aiming to map human pixels from an RGB image to a 3D surface of the human body. Due to a large amount of surface point regression, the training process appears to be easy to collapse compared to other region-based human instance analyzing tasks. By analyzing the loss formulation of the existing dense pose estimation model, we introduce a novel point regression loss function, named Dense Points} loss to stable the training progress, and a new balanced loss weighting strategy to handle the multi-task losses. With the above novelties, we propose a brand new architecture, named UV R-CNN. Without auxiliary supervision and external knowledge from other tasks, UV R-CNN can handle many complicated issues in dense pose model training progress, achieving 65.0% AP_gps and 66.1% AP_gpsm on the DensePose-COCO validation subset with ResNet-50-FPN feature extractor, competitive among the state-of-the-art dense human pose estimation methods.