アイトラッキングは、生態学的に有効な環境における人間の認知に関する豊富な行動データを提供する可能性があります。ただし、この豊富なデータを分析することは、多くの場合困難です。ほとんどの自動分析は、十分に分離された静的な関心領域を持つ単純な人工視覚刺激に固有のものですが、最も自然なシーンなどの複雑な視覚刺激のコンテキストでのほとんどの分析は、面倒で時間のかかる手動注釈に依存しています。この論文では、参加者の明らかな視覚的注意の軌跡を経時的に評価するタスクである「注意解読」にコンピュータ ビジョン ツールを使用する方法について研究しています。アテンションデコードアルゴリズムのトレーニングと評価のために、混雑した現実世界のビデオで、特定のオブジェクトを追跡し、ラベルと境界ボックスで注釈を付けた参加者からの視線データで構成される、公開されている複数オブジェクトアイトラッキング (MOET) データセットを提供します。また、アテンション デコード用の 2 つのエンドツーエンドのディープ ラーニング モデルを提案し、これらを最先端のヒューリスティック手法と比較します。
Eye-tracking has potential to provide rich behavioral data about human cognition in ecologically valid environments. However, analyzing this rich data is often challenging. Most automated analyses are specific to simplistic artificial visual stimuli with well-separated, static regions of interest, while most analyses in the context of complex visual stimuli, such as most natural scenes, rely on laborious and time-consuming manual annotation. This paper studies using computer vision tools for "attention decoding", the task of assessing the locus of a participant's overt visual attention over time. We provide a publicly available Multiple Object Eye-Tracking (MOET) dataset, consisting of gaze data from participants tracking specific objects, annotated with labels and bounding boxes, in crowded real-world videos, for training and evaluating attention decoding algorithms. We also propose two end-to-end deep learning models for attention decoding and compare these to state-of-the-art heuristic methods.