Hybrid coarse-fine classification for head pose estimation
  人間からの固有のオイラー角(ヨー、ピッチ、ロール)を計算する頭部姿勢推定は、視線推定、顔の位置合わせ、および3D再構成に不可欠です。従来のアプローチは、顔のランドマークの精度に大きく依存しています。特に顔の可視性が良好でない場合、パフォーマンスが制限されます。このホワイトペーパーでは、顔のランドマークを使用せずに推定を行うために、粗い回帰出力と細かい回帰出力を組み合わせて、深いネットワークを作成します。角度に対してより多くの量子化ユニットを利用し、他の補助的な粗いユニットの助けを借りて、細かい分類器を訓練します。統合回帰は、最終予測を取得するために採用されています。提案されたアプローチは、3つの困難なベンチマークで評価されます。 AFLW2000、BIWIで最先端を達成し、AFLWで良好に機能します。コードはGithubでリリースされました。
Head pose estimation, which computes the intrinsic Euler angles (yaw, pitch, roll) from the human, is crucial for gaze estimation, face alignment, and 3D reconstruction. Traditional approaches heavily relies on the accuracy of facial landmarks. It limits their performances, especially when the visibility of the face is not in good condition. In this paper, to do the estimation without facial landmarks, we combine the coarse and fine regression output together for a deep network. Utilizing more quantization units for the angles, a fine classifier is trained with the help of other auxiliary coarse units. Integrating regression is adopted to get the final prediction. The proposed approach is evaluated on three challenging benchmarks. It achieves the state-of-the-art on AFLW2000, BIWI and performs favorably on AFLW. The code has been released on Github.
updated: Wed Oct 02 2019 23:25:54 GMT+0000 (UTC)
published: Mon Jan 21 2019 03:07:05 GMT+0000 (UTC)
