arXiv reaDer
ビジョン トランスフォーマーにおける自己注意は、注意ではなく、知覚的なグループ化を実行します
Self-attention in Vision Transformers Performs Perceptual Grouping, Not Attention
最近、コンピューター ビジョンに関するかなりの数の研究に、ビジョン トランスフォーマーと呼ばれるディープ ニューラル アーキテクチャが関係しています。これらのモデルの視覚処理には、注意メカニズムを実装すると主張されている計算モデルが組み込まれています。ビジョン トランスフォーマーにおける注意メカニズムの役割を理解しようとする研究が増えているにもかかわらず、その効果はほとんど知られていません。ここでは、視覚トランスフォーマーの注意メカニズムが、人間の視覚的注意で知られているものと同様の効果を示すかどうかを尋ねました。この質問に答えるために、これらのモデルの注意の定式化を再検討したところ、その名前にもかかわらず、計算上、これらのモデルは類似性グループ化効果を持つ特別なクラスのリラクゼーション ラベル付けを実行することがわかりました。さらに、現代の実験的発見は、人間の視覚的注意がフィードフォワードとフィードバックの両方のメカニズムを含むことを明らかにしていますが、ビジョン トランスフォーマーの純粋なフィードフォワード アーキテクチャは、これらのモデルの注意が人間で知られているものと同じ効果を持たないことを示唆しています。これらの観察結果を定量化するために、ビジョン トランスフォーマーのファミリーにおけるグループ化のパフォーマンスを評価しました。私たちの結果は、色などの視覚的特徴の類似性に基づいて、自己注意モジュールが刺激の数字をグループ化することを示唆しています。また、顕著性検出の例としてのシングルトン検出実験では、これらのモデルが人間の視覚的注意で利用されるフィードフォワード視覚的顕著性メカニズムと同様の効果を示すかどうかを調べました。一般に、変圧器ベースの注意モジュールは、気を散らすものまたは地面のいずれかに、より多くの顕著性を割り当てることがわかりました。一緒に、私たちの研究は、ビジョントランスフォーマーの注意メカニズムが類似性グループ化を実行し、注意を実行しないことを示唆しています。
Recently, a considerable number of studies in computer vision involves deep neural architectures called vision transformers. Visual processing in these models incorporates computational models that are claimed to implement attention mechanisms. Despite an increasing body of work that attempts to understand the role of attention mechanisms in vision transformers, their effect is largely unknown. Here, we asked if the attention mechanisms in vision transformers exhibit similar effects as those known in human visual attention. To answer this question, we revisited the attention formulation in these models and found that despite the name, computationally, these models perform a special class of relaxation labeling with similarity grouping effects. Additionally, whereas modern experimental findings reveal that human visual attention involves both feed-forward and feedback mechanisms, the purely feed-forward architecture of vision transformers suggests that attention in these models will not have the same effects as those known in humans. To quantify these observations, we evaluated grouping performance in a family of vision transformers. Our results suggest that self-attention modules group figures in the stimuli based on similarity in visual features such as color. Also, in a singleton detection experiment as an instance of saliency detection, we studied if these models exhibit similar effects as those of feed-forward visual salience mechanisms utilized in human visual attention. We found that generally, the transformer-based attention modules assign more salience either to distractors or the ground. Together, our study suggests that the attention mechanisms in vision transformers perform similarity grouping and not attention.
updated: Thu Mar 02 2023 19:18:11 GMT+0000 (UTC)
published: Thu Mar 02 2023 19:18:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト