arXiv reaDer
VisionTransformerでのパッチの相互作用の視覚化と理解
Visualizing and Understanding Patch Interactions in Vision Transformer
Vision Transformer(ViT)は、パッチ間の情報の相互作用を通じて視覚表現を明示的に学習する独自の自己注意メカニズムにより、さまざまなコンピュータービジョンタスクの主要なツールになりました。成功したにもかかわらず、文献はビジョントランスフォーマーの説明可能性をめったに探求しておらず、包括的なパッチ間の相関に関する注意メカニズムがパフォーマンスにどのように影響するか、そしてさらなる可能性は何かについての明確な図はありません。この作業では、ビジョントランスのパッチ間の重要な注意の相互作用を分析および解釈するための新しい説明可能な視覚化アプローチを提案します。具体的には、最初に定量化インジケーターを導入して、パッチの相互作用の影響を測定し、注意ウィンドウの設計と無差別なパッチの削除に対するそのような定量化を検証します。次に、ViTの各パッチの効果的なレスポンシブフィールドを活用し、それに応じてウィンドウのないトランスアーキテクチャを考案します。 ImageNetでの広範な実験は、精巧に設計された定量的手法がViTモデルの学習を容易にし、トップ1の精度を最大4.28%リードできることを示しています。さらに、下流のきめ細かい認識タスクの結果は、私たちの提案の一般化をさらに検証します。
Vision Transformer (ViT) has become a leading tool in various computer vision tasks, owing to its unique self-attention mechanism that learns visual representations explicitly through cross-patch information interactions. Despite having good success, the literature seldom explores the explainability of vision transformer, and there is no clear picture of how the attention mechanism with respect to the correlation across comprehensive patches will impact the performance and what is the further potential. In this work, we propose a novel explainable visualization approach to analyze and interpret the crucial attention interactions among patches for vision transformer. Specifically, we first introduce a quantification indicator to measure the impact of patch interaction and verify such quantification on attention window design and indiscriminative patches removal. Then, we exploit the effective responsive field of each patch in ViT and devise a window-free transformer architecture accordingly. Extensive experiments on ImageNet demonstrate that the exquisitely designed quantitative method is shown able to facilitate ViT model learning, leading the top-1 accuracy by 4.28% at most. Moreover, the results on downstream fine-grained recognition tasks further validate the generalization of our proposal.
updated: Fri Mar 11 2022 13:48:11 GMT+0000 (UTC)
published: Fri Mar 11 2022 13:48:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト