人間の姿勢推定に関する最近の研究では、複雑な構造を利用してベンチマークデータセットのパフォーマンスを向上させ、モデルが実際に展開されたときのリソースのオーバーヘッドと推論速度を無視しています。この論文では、SimpleBaselineのデコンボリューションヘッドネットワークの計算コストとパラメータを軽減し、元の、レベル間、およびレベル内の情報を利用して精度を高める注意メカニズムを紹介します。さらに、ヒートマップの重み付け損失と呼ばれる新しい損失関数を提案します。これは、ヒートマップ上の各ピクセルの重みを生成し、モデルをキーポイントにより焦点を合わせたものにします。実験は、私たちの方法がパフォーマンス、リソース量、および推論速度の間のバランスを達成することを示しています。具体的には、私たちの方法はCOCOtest-devで65.3APスコアを達成できますが、推論速度はモバイルGPUとCPUでそれぞれ55FPSと18FPSです。
Recent research on human pose estimation exploits complex structures to improve performance on benchmark datasets, ignoring the resource overhead and inference speed when the model is actually deployed. In this paper, we lighten the computation cost and parameters of the deconvolution head network in SimpleBaseline and introduce an attention mechanism that utilizes original, inter-level, and intra-level information to intensify the accuracy. Additionally, we propose a novel loss function called heatmap weighting loss, which generates weights for each pixel on the heatmap that makes the model more focused on keypoints. Experiments demonstrate our method achieves a balance between performance, resource volume, and inference speed. Specifically, our method can achieve 65.3 AP score on COCO test-dev, while the inference speed is 55 FPS and 18 FPS on the mobile GPU and CPU, respectively.