arXiv reaDer
PatchFormer:パッチの注意に基づく多用途の3Dトランスフォーマー
PatchFormer: A Versatile 3D Transformer Based on Patch Attention
3Dビジョンコミュニティは、CNNからTransformersへのモデリングの移行を目の当たりにしており、純粋なTransformerアーキテクチャが主要な3D学習ベンチマークで最高の精度を達成しています。ただし、既存の3Dトランスフォーマーは、入力サイズに関して2次の複雑さ(空間と時間の両方)を持つ大きなアテンションマップを生成する必要があります。この欠点を解決するために、パッチアテンションを導入して、アテンションマップが計算されるはるかに小さなベースのセットを適応的に学習します。これらのベースに加重和を加えることにより、パッチアテンションはグローバルな形状コンテキストをキャプチャするだけでなく、入力サイズに対して線形の複雑さを実現します。さらに、軽量のマルチスケールアテンション(MSA)ブロックを提案して、さまざまなスケールの機能間でアテンションを構築し、モデルにマルチスケール機能を提供します。これらの提案されたモジュールに基づいて、PatchFormerと呼ばれるニューラルアーキテクチャを構築します。広範な実験により、当社のネットワークは、以前の3Dトランスフォーマーの7.3倍の速度で、一般的な3D認識タスクで高い精度を達成することが実証されています。
The 3D vision community is witnesses a modeling shift from CNNs to Transformers, where pure Transformer architectures have attained top accuracy on the major 3D learning benchmarks. However, existing 3D Transformers need to generate a large attention map, which has quadratic complexity (both in space and time) with respect to input size. To solve this shortcoming, we introduce patch-attention to adaptively learn a much smaller set of bases upon which the attention maps are computed. By a weighted summation upon these bases, patch-attention not only captures the global shape context but also achieves linear complexity to input size. In addition, we propose a lightweight Multi-scale Attention (MSA) block to build attentions among features of different scales, providing the model with multi-scale features. Based on these proposed modules, we construct our neural architecture called PatchFormer. Extensive experiments demonstrate that our network achieves strong accuracy on general 3D recognition tasks with 7.3x speed-up than previous 3D Transformers.
updated: Sat Oct 30 2021 08:39:55 GMT+0000 (UTC)
published: Sat Oct 30 2021 08:39:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト