arXiv reaDer
FasterPose:人間のポーズ推定のためのより高速でシンプルなベースライン
FasterPose: A Faster Simple Baseline for Human Pose Estimation
人間の姿勢推定のパフォーマンスは、キーポイントの位置特定の空間精度に依存します。ほとんどの既存の方法は、入力画像から高解像度(HR)表現を学習することにより、空間精度を追求します。実験的分析により、HR表現は計算コストの急激な増加につながるが、精度の向上は低解像度(LR)表現と比較してわずかなままであることがわかります。この論文では、FasterPoseという名前の効率的な姿勢推定のためのLR表現を備えた費用効果の高いネットワークの設計パラダイムを提案します。 LR設計はモデルの複雑さを大幅に縮小しますが、空間精度に関してネットワークを効果的にトレーニングする方法は付随する課題です。 FasterPoseのトレーニング動作を研究し、収束を加速して精度を高めるための新しい回帰クロスエントロピー(RCE)損失関数を定式化します。 RCE損失は、バイナリ監視から連続範囲への通常のクロスエントロピー損失を一般化するため、姿勢推定ネットワークのトレーニングはシグモイド関数の恩恵を受けることができます。そうすることで、計算コストとモデルサイズを大幅に削減しながら、空間精度を損なうことなくLR機能から出力ヒートマップを推測できます。以前は支配的だったポーズ推定のネットワークと比較して、私たちの方法はFLOPの58%を削減し、同時に精度を1.3%向上させます。広範な実験により、FasterPoseは、一般的なベンチマーク、つまりCOCOとMPIIで有望な結果をもたらし、実際の利用、特に非GPUシナリオでの低遅延および低エネルギー予算のアプリケーションの有効性と効率を一貫して検証することが示されています。
The performance of human pose estimation depends on the spatial accuracy of keypoint localization. Most existing methods pursue the spatial accuracy through learning the high-resolution (HR) representation from input images. By the experimental analysis, we find that the HR representation leads to a sharp increase of computational cost, while the accuracy improvement remains marginal compared with the low-resolution (LR) representation. In this paper, we propose a design paradigm for cost-effective network with LR representation for efficient pose estimation, named FasterPose. Whereas the LR design largely shrinks the model complexity, yet how to effectively train the network with respect to the spatial accuracy is a concomitant challenge. We study the training behavior of FasterPose, and formulate a novel regressive cross-entropy (RCE) loss function for accelerating the convergence and promoting the accuracy. The RCE loss generalizes the ordinary cross-entropy loss from the binary supervision to a continuous range, thus the training of pose estimation network is able to benefit from the sigmoid function. By doing so, the output heatmap can be inferred from the LR features without loss of spatial accuracy, while the computational cost and model size has been significantly reduced. Compared with the previously dominant network of pose estimation, our method reduces 58% of the FLOPs and simultaneously gains 1.3% improvement of accuracy. Extensive experiments show that FasterPose yields promising results on the common benchmarks, i.e., COCO and MPII, consistently validating the effectiveness and efficiency for practical utilization, especially the low-latency and low-energy-budget applications in the non-GPU scenarios.
updated: Wed Jul 07 2021 13:39:08 GMT+0000 (UTC)
published: Wed Jul 07 2021 13:39:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト