頭部姿勢の推定は、ドライバー支援システム、人間とコンピューターの相互作用、仮想現実技術など、さまざまなアプリケーションで重要な役割を果たします。非常に低い計算コストで、単一の2D顔画像から頭部姿勢を正確に推定するための、新しいジオメトリベースのアルゴリズムを提案します。具体的には、あらかじめ定義された3D顔モデルからの4つの非共面特徴点と2D顔画像から自動/手動で抽出された対応する特徴点の直交座標が最初に正規化されて、外部要因(つまり、スケール係数と翻訳パラメータ)。次に、4つの正規化された3D特徴点は、一意に決定された球体を参照して、球体座標で表されます。球体パラメーター化により、特徴点の座標は、直交座標の3つの方向すべてに沿って効果的にモーフィングできます。最後に、正規化された2D特徴点とモーフィングされた3D特徴点の2D再投影間のユークリッド距離を最小化することにより、頭部姿勢を示す回転行列が取得されます。 2つの一般的なデータベース、つまりPointing'04とBiwi Kinectの包括的な実験結果は、提案されたアルゴリズムが、最先端のジオメトリベースの方法よりも高い精度と短い実行時間で頭部姿勢を推定できることを示しています。最先端の学習ベースの方法や追加の深度情報を備えたジオメトリベースの方法と比較しても、当社のアルゴリズムは同等のパフォーマンスを発揮します。
Head pose estimation plays a vital role in various applications, e.g., driverassistance systems, human-computer interaction, virtual reality technology, and so on. We propose a novel geometry based algorithm for accurately estimating the head pose from a single 2D face image at a very low computational cost. Specifically, the rectangular coordinates of only four non-coplanar feature points from a predefined 3D facial model as well as the corresponding ones automatically/ manually extracted from a 2D face image are first normalized to exclude the effect of external factors (i.e., scale factor and translation parameters). Then, the four normalized 3D feature points are represented in spherical coordinates with reference to the uniquely determined sphere by themselves. Due to the spherical parameterization, the coordinates of feature points can then be morphed along all the three directions in the rectangular coordinates effectively. Finally, the rotation matrix indicating the head pose is obtained by minimizing the Euclidean distance between the normalized 2D feature points and the 2D re-projections of morphed 3D feature points. Comprehensive experimental results over two popular databases, i.e., Pointing'04 and Biwi Kinect, demonstrate that the proposed algorithm can estimate head poses with higher accuracy and lower run time than state-of-the-art geometry based methods. Even compared with start-of-the-art learning based methods or geometry based methods with additional depth information, our algorithm still produces comparable performance.