Transformerアーキテクチャは機械学習の分野で広く普及していますが、3D形状認識への適応は簡単ではありません。二次計算の複雑さのために、入力ポイントのセットが大きくなると、自己注意演算子はすぐに非効率になります。さらに、注意メカニズムは、地球規模で個々のポイント間の有用な接続を見つけるのに苦労していることがわかります。これらの問題を軽減するために、ローカルとグローバルの注意メカニズムを組み合わせて、個々のポイントとポイントのパッチの両方が互いに効果的に対応できるようにする2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案します。形状分類に関する実験では、このようなアプローチは、ベースラインのTransformerよりもダウンストリームのタスクに役立つ機能を提供すると同時に、計算効率も高いことが示されています。さらに、この方法をシーン再構成の特徴マッチングに拡張し、既存のシーン再構成パイプラインと組み合わせて使用できることを示します。
While the Transformer architecture has become ubiquitous in the machine learning field, its adaptation to 3D shape recognition is non-trivial. Due to its quadratic computational complexity, the self-attention operator quickly becomes inefficient as the set of input points grows larger. Furthermore, we find that the attention mechanism struggles to find useful connections between individual points on a global scale. In order to alleviate these problems, we propose a two-stage Point Transformer-in-Transformer (Point-TnT) approach which combines local and global attention mechanisms, enabling both individual points and patches of points to attend to each other effectively. Experiments on shape classification show that such an approach provides more useful features for downstream tasks than the baseline Transformer, while also being more computationally efficient. In addition, we also extend our method to feature matching for scene reconstruction, showing that it can be used in conjunction with existing scene reconstruction pipelines.