Vision Transformer(ViT)モデルは、画像パッチを「ビジュアルトークン」として扱い、パッチ間の注意を学習することを前提に構築されています。パッチ埋め込みベースのトークナイザーは実際には回避策であり、対応するテキストトークナイザーとは意味的なギャップがあります。パッチ間の注意は、二次の複雑さの問題に悩まされており、学習したViTモデルを説明することも簡単ではありません。 ViTモデルでこれらの問題に対処するために、このペーパーでは、パッチからクラスターへの注意(PaCa)ベースのViTモデルを学習することを提案します。 PaCaViTのクエリはパッチに基づいていますが、キーと値はクラスタリングに基づいています(事前定義された少数のクラスターを使用)。クラスターはエンドツーエンドで学習され、より優れたトークナイザーにつながり、ViTモデルにデプロイすると、注意のための共同クラスタリングとクラスタリングのための注意を実現します。二次の複雑さは線形の複雑さに緩和されます。また、学習したクラスターを直接視覚化することで、トレーニング済みのViTモデルがタスク(オブジェクト検出など)の実行をどのように学習するかを明らかにできます。実験では、提案されたPaCa-ViTは、CIFAR-100とImageNet-1000の画像分類、およびMS-COCOオブジェクト検出とインスタンスセグメンテーションでテストされます。従来技術と比較して、それは分類においてより良い性能と検出およびセグメンテーションにおいて同等の性能を得る。線形の複雑さのため、COCOでは大幅に効率的です。学習したクラスターも意味的に意味があり、より識別力がありながら解釈可能なViTモデルの設計に光を当てます。
The Vision Transformer (ViT) model is built on the assumption of treating image patches as "visual tokens" and learning patch-to-patch attention. The patch embedding based tokenizer is a workaround in practice and has a semantic gap with respect to its counterpart, the textual tokenizer. The patch-to-patch attention suffers from the quadratic complexity issue, and also makes it non-trivial to explain learned ViT models. To address these issues in ViT models, this paper proposes to learn patch-to-cluster attention (PaCa) based ViT models. Queries in our PaCaViT are based on patches, while keys and values are based on clustering (with a predefined small number of clusters). The clusters are learned end-to-end, leading to better tokenizers and realizing joint clustering-for-attention and attention-for-clustering when deployed in ViT models. The quadratic complexity is relaxed to linear complexity. Also, directly visualizing the learned clusters can reveal how a trained ViT model learns to perform a task (e.g., object detection). In experiments, the proposed PaCa-ViT is tested on CIFAR-100 and ImageNet-1000 image classification, and MS-COCO object detection and instance segmentation. Compared with prior arts, it obtains better performance in classification and comparable performance in detection and segmentation. It is significantly more efficient in COCO due to the linear complexity. The learned clusters are also semantically meaningful and shed light on designing more discriminative yet interpretable ViT models.