arXiv reaDer
合成による分析によるトップダウンの視覚的注意
Top-Down Visual Attention from Analysis by Synthesis
現在の注意アルゴリズム (自己注意など) は刺激駆動型であり、画像内のすべての顕著なオブジェクトを強調表示します。ただし、人間のようなインテリジェント エージェントは、目の前の高レベルのタスクに基づいて注意を向け、タスクに関連するオブジェクトのみに注目することがよくあります。このタスク ガイド付きトップダウン アテンションの機能は、タスクに適応した表現を提供し、モデルをさまざまなタスクに一般化するのに役立ちます。このホワイト ペーパーでは、ビジョンの従来の分析による合成 (AbS) の観点から、トップダウンの注意を検討します。以前の研究は、視覚的注意とまばらな再構成の間の機能的同等性を示しています。目標指向のトップダウン信号によって変調された同様のスパース再構成目標を最適化する AbS 視覚システムが、トップダウンの注意を自然にシミュレートすることを示します。さらに、Abs を変分的に近似し、制御可能なトップダウンの注意を実現するトップダウン変調 ViT モデルである、Analysis-by-Synthesis Vision Transformer (AbSViT) を提案します。実際のアプリケーションでは、AbSViT は、言語がトップダウンの注意を導く VQA やゼロショット検索などのビジョン言語タスクのベースラインを一貫して改善します。 AbSViT は一般的なバックボーンとしても機能し、分類、セマンティック セグメンテーション、およびモデルの堅牢性に関するパフォーマンスを向上させます。
Current attention algorithms (e.g., self-attention) are stimulus-driven and highlight all the salient objects in an image. However, intelligent agents like humans often guide their attention based on the high-level task at hand, focusing only on task-related objects. This ability of task-guided top-down attention provides task-adaptive representation and helps the model generalize to various tasks. In this paper, we consider top-down attention from a classic Analysis-by-Synthesis (AbS) perspective of vision. Prior work indicates a functional equivalence between visual attention and sparse reconstruction; we show that an AbS visual system that optimizes a similar sparse reconstruction objective modulated by a goal-directed top-down signal naturally simulates top-down attention. We further propose Analysis-by-Synthesis Vision Transformer (AbSViT), which is a top-down modulated ViT model that variationally approximates AbS, and achieves controllable top-down attention. For real-world applications, AbSViT consistently improves over baselines on Vision-Language tasks such as VQA and zero-shot retrieval where language guides the top-down attention. AbSViT can also serve as a general backbone, improving performance on classification, semantic segmentation, and model robustness.
updated: Thu Mar 23 2023 05:17:05 GMT+0000 (UTC)
published: Thu Mar 23 2023 05:17:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト