このホワイトペーパーでは、3Dディープラーニング用のポイントボクセルトランスフォーマー(PVT)と呼ばれる、効率的で高性能なニューラルアーキテクチャを紹介します。これは、3Dボクセルベースとポイントベースの両方の自己注意計算を深く統合して、 3Dデータ。具体的には、ボクセルでマルチヘッド自己注意(MSA)計算を実行して、効率的な学習パターンと粗粒度のローカルフィーチャを取得し、ポイントで自己注意を実行して、グローバルコンテキストに関するより詳細な情報を提供します。さらに、MSA計算のコストを高効率で削減するために、MSA計算を重複しないローカルボックスに制限し、クロスボックス接続を維持することにより、循環シフトボクシングスキームを設計します。分類ベンチマークで評価された私たちの方法は、94.0%(投票なし)の最先端の精度を達成するだけでなく、平均7倍の測定速度で以前のTransformerベースのモデルを上回ります。パーツおよびセマンティックセグメンテーションでは、モデルも強力なパフォーマンスを実現します(それぞれ、86.5%および68.2%mIoU)。 3Dオブジェクト検出タスクでは、Frustrum PointNetのプリミティブをPVTブロックに置き換え、8.6%APの改善を達成します。
In this paper, we present an efficient and high-performance neural architecture, termed Point-Voxel Transformer (PVT)for 3D deep learning, which deeply integrates both 3D voxel-based and point-based self-attention computation to learn more discriminative features from 3D data. Specifically, we conduct multi-head self-attention (MSA) computation in voxels to obtain the efficient learning pattern and the coarse-grained local features while performing self-attention in points to provide finer-grained information about the global context. In addition, to reduce the cost of MSA computation with high efficiency, we design a cyclic shifted boxing scheme by limiting the MSA computation to non-overlapping local box and also preserving cross-box connection. Evaluated on classification benchmark, our method not only achieves state-of-the-art accuracy of 94.0% (no voting) but outperforms previous Transformer-based models with 7x measured speedup on average. On part and semantic segmentation, our model also obtains strong performance(86.5% and 68.2% mIoU, respectively). For 3D object detection task, we replace the primitives in Frustrum PointNet with PVT block and achieve an improvement of 8.6% AP.