ディープニューラルネットワークは、3D点群を理解するために広く使用されています。各ポイント畳み込みレイヤーで、特徴は3Dポイントのローカル近傍から計算され、セマンティック情報を抽出するために後続の処理のために結合されます。既存の方法は、固定入力ポイント座標の同じメトリックによって定義された、ネットワーク層全体で同じ個々のポイント近傍を採用します。この一般的な方法は簡単に実装できますが、必ずしも最適であるとは限りません。理想的には、より深い層でより多くの潜在的な情報が抽出されるため、ローカル近隣は異なる層で異なる必要があります。最適なローカル近傍を各レイヤーで採用できるように、入力ポイントクラウドのさまざまな非剛体変換を学習するための新しいエンドツーエンドアプローチを提案します。 3D点群に対して、線形(アフィン)と非線形(射影および変形可能)の両方の空間変換器を提案します。 ShapeNetパーツセグメンテーションデータセットの空間トランスフォーマーを使用すると、ネットワークはすべてのカテゴリでより高い精度を実現し、特にイヤホンとロケットで8%のゲインが得られます。また、私たちの方法は、分類、検出、セマンティックセグメンテーションなどの他のポイントクラウドタスクの最先端を上回っています。視覚化により、空間トランスフォーマーは、カテゴリ内の変動にもかかわらず、3D形状のジオメトリとセマンティクスに従ってローカル近傍を動的に変更することにより、機能をより効率的に学習できることが示されます。私たちのコードはhttps://github.com/samaonline/spatial-transformer-for-3d-point-cloudsで公開されています。
Deep neural networks are widely used for understanding 3D point clouds. At each point convolution layer, features are computed from local neighborhoods of 3D points and combined for subsequent processing in order to extract semantic information. Existing methods adopt the same individual point neighborhoods throughout the network layers, defined by the same metric on the fixed input point coordinates. This common practice is easy to implement but not necessarily optimal. Ideally, local neighborhoods should be different at different layers, as more latent information is extracted at deeper layers. We propose a novel end-to-end approach to learn different non-rigid transformations of the input point cloud so that optimal local neighborhoods can be adopted at each layer. We propose both linear (affine) and non-linear (projective and deformable) spatial transformers for 3D point clouds. With spatial transformers on the ShapeNet part segmentation dataset, the network achieves higher accuracy for all categories, with 8% gain on earphones and rockets in particular. Our method also outperforms the state-of-the-art on other point cloud tasks such as classification, detection, and semantic segmentation. Visualizations show that spatial transformers can learn features more efficiently by dynamically altering local neighborhoods according to the geometry and semantics of 3D shapes in spite of their within-category variations. Our code is publicly available at https://github.com/samaonline/spatial-transformer-for-3d-point-clouds.