arXiv reaDer
複数のズームスケールを使用した実際の360度の視線推定
360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales
視線推定には、画像またはビデオ内のどこを見ているかを予測することが含まれます。技術的には、視線情報は、顔の向きと目の向きの2つの異なる倍率レベルから推測できます。極端な左/右の視線や閉塞などの条件で明確な眼帯がないことを考えると、野生の視線推定では推論が常に実行可能であるとは限りません。この作業では、顔領域の異なる倍率レベルで、焦点を合わせた外観から集約することにより、視線を推定する人間の能力を模倣するモデルを設計します。このモデルは、明確な眼帯を抽出する必要性を回避すると同時に、野生の視線推定のための顔のスケールの変動に関する別の重要な問題に対処します。さらに、モデルを拡張して、堅牢な平均化スキームとともに極座標表現で後方視線をエンコードすることにより、360度の視線推定の困難なタスクを処理します。スケールが変化する顔を含まないETH-XGazeデータセットでの実験結果は、複数のスケールからの情報を同化するモデルの有効性を示しています。多くのスケールが変化する顔を持つ他のベンチマークデータセット(Gaze360およびRT-GENE)の場合、提案されたモデルは、画像またはビデオのいずれかを使用した場合の視線推定の最先端のパフォーマンスを実現します。コードと事前トレーニング済みモデルには、https://github.com/ashesh-0/MultiZoomGazeからアクセスできます。
Gaze estimation involves predicting where the person is looking at within an image or video. Technically, the gaze information can be inferred from two different magnification levels: face orientation and eye orientation. The inference is not always feasible for gaze estimation in the wild, given the lack of clear eye patches in conditions like extreme left/right gazes or occlusions. In this work, we design a model that mimics humans' ability to estimate the gaze by aggregating from focused looks, each at a different magnification level of the face area. The model avoids the need to extract clear eye patches and at the same time addresses another important issue of face-scale variation for gaze estimation in the wild. We further extend the model to handle the challenging task of 360-degree gaze estimation by encoding the backward gazes in the polar representation along with a robust averaging scheme. Experiment results on the ETH-XGaze dataset, which does not contain scale-varying faces, demonstrate the model's effectiveness to assimilate information from multiple scales. For other benchmark datasets with many scale-varying faces (Gaze360 and RT-GENE), the proposed model achieves state-of-the-art performance for gaze estimation when using either images or videos. Our code and pretrained models can be accessed at https://github.com/ashesh-0/MultiZoomGaze.
updated: Sun Oct 24 2021 11:32:52 GMT+0000 (UTC)
published: Tue Sep 15 2020 08:45:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト