最近開発された純粋なTransformerアーキテクチャは、畳み込みニューラルネットワークと比較して点群学習ベンチマークで有望な精度を達成しています。ただし、既存のポイントクラウドトランスフォーマーは、不規則なデータの構造化にかなりの時間を浪費するため、計算コストが高くなります。この欠点を解決するために、スパースウィンドウアテンション(SWA)モジュールを提示して、空でないボクセルから粗いローカルフィーチャを収集します。これは、高価な不規則なデータ構造化と無効な空のボクセル計算をバイパスするだけでなく、線形計算の複雑さも取得します。ボクセル解像度に。一方、グローバルシェイプに関するきめ細かい機能を収集するために、オブジェクトの剛体変換用のより堅牢な自己注意バリアントである相対注意(RA)モジュールを導入します。 SWAとRAを装備し、両方のモジュールを点群学習用の共同フレームワークに統合するPVTと呼ばれるニューラルアーキテクチャを構築します。以前のTransformerベースおよびアテンションベースのモデルと比較して、私たちの方法は、分類ベンチマークで94.0%の最高精度を達成し、平均で10倍の推論速度を達成します。広範な実験により、パーツおよびセマンティックセグメンテーションベンチマークでのPVTの有効性も検証されます(それぞれ86.6%および69.2%mIoU)。
The recently developed pure Transformer architectures have attained promising accuracy on point cloud learning benchmarks compared to convolutional neural networks. However, existing point cloud Transformers are computationally expensive since they waste a significant amount of time on structuring the irregular data. To solve this shortcoming, we present Sparse Window Attention (SWA) module to gather coarse-grained local features from non-empty voxels, which not only bypasses the expensive irregular data structuring and invalid empty voxel computation, but also obtains linear computational complexity with respect to voxel resolution. Meanwhile, to gather fine-grained features about the global shape, we introduce relative attention (RA) module, a more robust self-attention variant for rigid transformations of objects. Equipped with the SWA and RA, we construct our neural architecture called PVT that integrates both modules into a joint framework for point cloud learning. Compared with previous Transformer-based and attention-based models, our method attains top accuracy of 94.0% on classification benchmark and 10x inference speedup on average. Extensive experiments also valid the effectiveness of PVT on part and semantic segmentation benchmarks (86.6% and 69.2% mIoU, respectively).