自動凝視推定は多種多様なアプリケーション領域にとって非常に重要ですが、大きくて多様なデータを収集することが難しいため、正確で堅牢な凝視モデルをトレーニングすることは困難です(3D凝視は高価であり、既存のデータセットは異なるセットアップ)。この問題に対処するために、このホワイトペーパーの主な貢献は、注視アノテーションなしで低次元の注視表現を学習する効果的なアプローチを提案することです。主なアイデアは、視線リダイレクトネットワークに依存し、リダイレクト変数として(リダイレクトネットワークの)入力画像とターゲット画像の視線表現の違いを使用することです。画像ドメインのリダイレクト損失により、リダイレクトネットワークと注視表現ネットワークの両方の共同トレーニングが可能になります。さらに、注視表現に明確な物理的意味を提供するだけでなく、方向の歪みを回避するワーピングフィールドの正則化を提案します。少数ショットの注視推定(競合結果は<= 100のキャリブレーションサンプルで達成可能)、データセット間の注視推定、注視ネットワークの事前トレーニング、および別のタスク(頭の姿勢推定)に関する有望な結果は、フレームワークの有効性を示しています。
Although automatic gaze estimation is very important to a large variety of application areas, it is difficult to train accurate and robust gaze models, in great part due to the difficulty in collecting large and diverse data (annotating 3D gaze is expensive and existing datasets use different setups). To address this issue, our main contribution in this paper is to propose an effective approach to learn a low dimensional gaze representation without gaze annotations, which to the best of our best knowledge, is the first work to do so. The main idea is to rely on a gaze redirection network and use the gaze representation difference of the input and target images (of the redirection network) as the redirection variable. A redirection loss in image domain allows the joint training of both the redirection network and the gaze representation network. In addition, we propose a warping field regularization which not only provides an explicit physical meaning to the gaze representations but also avoids redirection distortions. Promising results on few-shot gaze estimation (competitive results can be achieved with as few as <= 100 calibration samples), cross-dataset gaze estimation, gaze network pretraining, and another task (head pose estimation) demonstrate the validity of our framework.