人々がどこを見ているかを理解することは、有益な社会的手がかりです。この作業では、大規模な視線追跡データセットであるGaze360と、制約のない画像での堅牢な3D視線推定の方法を紹介します。私たちのデータセットは、屋内および屋外環境の238人の被験者で構成されており、幅広い頭のポーズと距離にわたる3D視線がラベル付けされています。これは、主題と多様性の両方によって、この種の最大の公開データセットであり、シンプルで効率的な収集方法によって可能になりました。提案された3D視線モデルは、既存のモデルを拡張して時間情報を含め、視線の不確かさの推定値を直接出力します。アブレーション研究によりモデルの利点を実証し、他の最近の注視ベンチマークデータセットに対するクロスデータセット評価によりその一般化パフォーマンスを示します。さらに、クロスデータセットドメイン適応を改善するための単純な自己管理アプローチを提案します。最後に、スーパーマーケットの環境で顧客の注意を推定するためのモデルのアプリケーションを示します。データセットとモデルはhttp://gaze360.csail.mit.eduで入手できます。
Understanding where people are looking is an informative social cue. In this work, we present Gaze360, a large-scale gaze-tracking dataset and method for robust 3D gaze estimation in unconstrained images. Our dataset consists of 238 subjects in indoor and outdoor environments with labelled 3D gaze across a wide range of head poses and distances. It is the largest publicly available dataset of its kind by both subject and variety, made possible by a simple and efficient collection method. Our proposed 3D gaze model extends existing models to include temporal information and to directly output an estimate of gaze uncertainty. We demonstrate the benefits of our model via an ablation study, and show its generalization performance via a cross-dataset evaluation against other recent gaze benchmark datasets. We furthermore propose a simple self-supervised approach to improve cross-dataset domain adaptation. Finally, we demonstrate an application of our model for estimating customer attention in a supermarket setting. Our dataset and models are available at http://gaze360.csail.mit.edu .