不規則なドメインと順序付けがないため、点群処理用のディープ ニューラル ネットワークの設計は困難です。この論文は、点群学習のためのPoint Cloud Transformer(PCT)と呼ばれる新しいフレームワークを提示します。 PCT は、自然言語処理で大きな成功を収め、画像処理で大きな可能性を示す Transformer に基づいています。これは、点のシーケンスを処理するために本質的に順列不変であるため、点群学習に最適です。点群内のローカル コンテキストをより適切にキャプチャするために、最遠点サンプリングと最近傍探索のサポートを使用して入力埋め込みを強化します。大規模な実験により、PCT が形状分類、パーツ セグメンテーション、および通常の推定タスクで最先端のパフォーマンスを実現できることが示されています。
The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer(PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation and normal estimation tasks.