人間の注意の根底にあるメカニズムを理解することは、視覚科学と人工知能の両方にとって根本的な課題です。自由視聴の計算モデルは数多く提案されていますが、タスク駆動型の画像探索の基礎となるメカニズムについてはあまり知られていません。このギャップに対処するために、キャプション付けタスク中に収集されたキャプションとクリック依存の画像探索のデータベースである CapMIT1003 を紹介します。 CapMIT1003 は、有名な MIT1003 ベンチマークと同じ刺激に基づいており、自由観察条件下での視線追跡データが利用可能であり、両方のタスクにおける人間の注意を同時に研究する有望な機会を提供します。この分野での将来の研究を促進するために、このデータセットを一般公開します。さらに、視覚スキャンパスを予測するための新しいゼロショット手法である NevaClip を紹介します。これは、事前学習済み対照言語画像 (CLIP) モデルと生物学にインスピレーションを得た神経視覚注意 (NeVA) アルゴリズムを組み合わせたものです。 NevaClip は、勾配駆動の視覚探索を使用してスキャンパスを生成し、中心窩視覚刺激の表現と関連するキャプションの表現を位置合わせすることによって人間のスキャンパスをシミュレートします。私たちの実験結果は、NevaClip がキャプションタスクと自由視聴タスクの両方において、スキャンパスの妥当性の点で人間の視覚的注意の既存の教師なし計算モデルよりも優れていることを示しています。さらに、NevaClip を不正確または誤解を招くキャプションで条件付けするとランダムな動作が生じることを示し、意思決定プロセスにおけるキャプション ガイダンスの重大な影響を強調します。これらの発見は、人間の注意を誘導するメカニズムのより良い理解に貢献し、下流タスクの直接のトップダウン誘導を統合できるスキャンパス予測へのより高度な計算アプローチへの道を切り開きます。
Understanding the mechanisms underlying human attention is a fundamental challenge for both vision science and artificial intelligence. While numerous computational models of free-viewing have been proposed, less is known about the mechanisms underlying task-driven image exploration. To address this gap, we present CapMIT1003, a database of captions and click-contingent image explorations collected during captioning tasks. CapMIT1003 is based on the same stimuli from the well-known MIT1003 benchmark, for which eye-tracking data under free-viewing conditions is available, which offers a promising opportunity to concurrently study human attention under both tasks. We make this dataset publicly available to facilitate future research in this field. In addition, we introduce NevaClip, a novel zero-shot method for predicting visual scanpaths that combines contrastive language-image pretrained (CLIP) models with biologically-inspired neural visual attention (NeVA) algorithms. NevaClip simulates human scanpaths by aligning the representation of the foveated visual stimulus and the representation of the associated caption, employing gradient-driven visual exploration to generate scanpaths. Our experimental results demonstrate that NevaClip outperforms existing unsupervised computational models of human visual attention in terms of scanpath plausibility, for both captioning and free-viewing tasks. Furthermore, we show that conditioning NevaClip with incorrect or misleading captions leads to random behavior, highlighting the significant impact of caption guidance in the decision-making process. These findings contribute to a better understanding of mechanisms that guide human attention and pave the way for more sophisticated computational approaches to scanpath prediction that can integrate direct top-down guidance of downstream tasks.