ヒートマップ回帰は、顔のランドマークのローカリゼーションや人間のポーズの推定など、ディープラーニングベースのセマンティックランドマークのローカリゼーションの主流の方法論になっています。ヒートマップ回帰は、制約のない設定でのポーズ、照明、およびオクルージョンの大きな変動に対してロバストですが、通常、サブピクセルのローカリゼーションの問題が発生します。具体的には、ヒートマップのアクティベーションポイントインデックスが常に整数であることを考慮すると、数値座標の表現としてヒートマップを使用すると、量子化エラーが発生します。サブピクセルローカリゼーションの問題を克服するための以前の方法は、通常、高解像度のヒートマップに依存しています。その結果、ローカリゼーションの精度と計算コストの達成の間には常にトレードオフがあり、ヒートマップ回帰の計算の複雑さは2次式のヒートマップ解像度に依存します。この論文では、バニラヒートマップ回帰の量子化誤差を正式に分析し、サブピクセルローカリゼーション問題に対処するためのシンプルで効果的な量子化システムを提案します。ランダム化された丸め操作によって誘導される提案された量子化システムは、1)トレーニング中に確率論的アプローチを使用して、数値座標の小数部分をグラウンドトゥルースヒートマップにエンコードします。 2)テスト中に一連のアクティベーションポイントから予測された数値座標をデコードします。ヒートマップ回帰のために提案された量子化システムが偏りがなく、無損失であることを証明します。人気のある顔のランドマークローカリゼーションデータセット(WFLW、300W、COFW、およびAFLW)と人間の姿勢推定データセット(MPIIおよびCOCO)の実験結果は、効率的で正確なセマンティックランドマークローカリゼーションのための提案された方法の有効性を示しています。コードはhttp://github.com/baoshengyu/H3Rで入手できます。
Heatmap regression has become the mainstream methodology for deep learning-based semantic landmark localization, including in facial landmark localization and human pose estimation. Though heatmap regression is robust to large variations in pose, illumination, and occlusion in unconstrained settings, it usually suffers from a sub-pixel localization problem. Specifically, considering that the activation point indices in heatmaps are always integers, quantization error thus appears when using heatmaps as the representation of numerical coordinates. Previous methods to overcome the sub-pixel localization problem usually rely on high-resolution heatmaps. As a result, there is always a trade-off between achieving localization accuracy and computational cost, where the computational complexity of heatmap regression depends on the heatmap resolution in a quadratic manner. In this paper, we formally analyze the quantization error of vanilla heatmap regression and propose a simple yet effective quantization system to address the sub-pixel localization problem. The proposed quantization system induced by the randomized rounding operation 1) encodes the fractional part of numerical coordinates into the ground truth heatmap using a probabilistic approach during training; and 2) decodes the predicted numerical coordinates from a set of activation points during testing. We prove that the proposed quantization system for heatmap regression is unbiased and lossless. Experimental results on popular facial landmark localization datasets (WFLW, 300W, COFW, and AFLW) and human pose estimation datasets (MPII and COCO) demonstrate the effectiveness of the proposed method for efficient and accurate semantic landmark localization. Code is available at http://github.com/baoshengyu/H3R.