人間の視覚システムは、人間の注意として知られる生物学的メカニズムである迅速な認識のために、シーンの一部に選択的に対応できます。これに触発されて、最近のディープラーニングモデルは、機械/神経/人工注意と呼ばれる、さらなる処理のために入力信号の最もタスクに関連する部分に焦点を合わせる注意メカニズムをエンコードします。人間と機械の注意の関係を理解することは、ニューラルネットワークの解釈と設計にとって重要です。多くの作品は、神経回路網がどこを見ているかを説明することによって、注意メカニズムが解釈可能性の追加の次元を提供すると主張しています。ただし、最近の研究は、人工注意マップが常に一般的な直感と一致するとは限らないことを示しています。これらの相反する証拠を考慮して、ここではニューラルネットワーク設計における人工注意と人間の注意の使用に関する体系的な研究を行います。 3つの例のコンピュータービジョンタスク、多様な代表的なバックボーン、有名なアーキテクチャ、対応する実際の人間の視線データ、体系的に実施された大規模な定量的研究により、人工的な注意と人間の視覚的注意の一貫性を定量化し、既存の人工的な注意メカニズムへの新しい洞察を提供します人間と人工の注意メカニズムに関連するいくつかの重要な質問に予備的な回答を与えることによって。全体的な結果は、人間の注意が注意駆動型のタスクで意味のある「グラウンドトゥルース」をベンチマークできることを示しています。人工的な注意が人間の注意に近いほど、パフォーマンスが向上します。より高度なビジョンタスクの場合は、ケースバイケースです。注意駆動型のタスクでは、パフォーマンスを向上させるために、人工的な注意と人間の注意との間のより適切な調整を明示的に強制することをお勧めします。このような調整により、より高度なコンピュータビジョンタスクのネットワークの説明可能性も向上します。
Human visual system can selectively attend to parts of a scene for quick perception, a biological mechanism known as Human attention. Inspired by this, recent deep learning models encode attention mechanisms to focus on the most task-relevant parts of the input signal for further processing, which is called Machine/Neural/Artificial attention. Understanding the relation between human and machine attention is important for interpreting and designing neural networks. Many works claim that the attention mechanism offers an extra dimension of interpretability by explaining where the neural networks look. However, recent studies demonstrate that artificial attention maps do not always coincide with common intuition. In view of these conflicting evidence, here we make a systematic study on using artificial attention and human attention in neural network design. With three example computer vision tasks, diverse representative backbones, and famous architectures, corresponding real human gaze data, and systematically conducted large-scale quantitative studies, we quantify the consistency between artificial attention and human visual attention and offer novel insights into existing artificial attention mechanisms by giving preliminary answers to several key questions related to human and artificial attention mechanisms. Overall results demonstrate that human attention can benchmark the meaningful `ground-truth' in attention-driven tasks, where the more the artificial attention is close to human attention, the better the performance; for higher-level vision tasks, it is case-by-case. It would be advisable for attention-driven tasks to explicitly force a better alignment between artificial and human attention to boost the performance; such alignment would also improve the network explainability for higher-level computer vision tasks.