arXiv reaDer
ビジョン トランスフォーマーの視覚化: ニューロンは何を伝え、ニューロンはどのように振る舞うか?
Vision Transformer Visualization: What Neurons Tell and How Neurons Behave?
最近、ビジョン トランスフォーマー (ViT) は、コンピューター ビジョンのさまざまなタスクにうまく適用されています。しかし、なぜそれらが機能するのか、どのように動作するのかなどの重要な問題は、まだほとんどわかっていません。この論文では、効果的な視覚化手法を提案し、ニューロンで運ばれる情報を公開し、ViT のレイヤー全体に埋め込みを特徴付けるのを支援します。私たちのアプローチは、入力画像のローカルおよびグローバル情報の視覚化と、複数のレベルでの潜在的な特徴の埋め込みに焦点を当てた、ViT の計算プロセスから逸脱しています。入力での視覚化とレベル 0 での埋め込みは、ViT が画像のオクルージョンとパッチ シャッフルに対して一般的にロバストである理由に関するサポートを提供するなど、興味深い発見を明らかにします。または CNN とは異なり、レベル 0 の埋め込みにはすでに豊富なセマンティックの詳細が含まれています。次に、レイヤー全体で効果的な視覚化を実行するための厳密なフレームワークを開発し、ViTs フィルターとグループ化/クラスタリング動作の効果をオブジェクト パッチに公開します。最後に、実際のデータセットに関する包括的な実験を提供して、提案された方法のメリットと調査結果を定性的および定量的に実証します。 https://github.com/byM1902/ViT_visualization
Recently vision transformers (ViT) have been applied successfully for various tasks in computer vision. However, important questions such as why they work or how they behave still remain largely unknown. In this paper, we propose an effective visualization technique, to assist us in exposing the information carried in neurons and feature embeddings across the ViT's layers. Our approach departs from the computational process of ViTs with a focus on visualizing the local and global information in input images and the latent feature embeddings at multiple levels. Visualizations at the input and embeddings at level 0 reveal interesting findings such as providing support as to why ViTs are rather generally robust to image occlusions and patch shuffling; or unlike CNNs, level 0 embeddings already carry rich semantic details. Next, we develop a rigorous framework to perform effective visualizations across layers, exposing the effects of ViTs filters and grouping/clustering behaviors to object patches. Finally, we provide comprehensive experiments on real datasets to qualitatively and quantitatively demonstrate the merit of our proposed methods as well as our findings. https://github.com/byM1902/ViT_visualization
updated: Tue Oct 18 2022 01:40:08 GMT+0000 (UTC)
published: Fri Oct 14 2022 08:56:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト