従来の畳み込み層は、画像の自然なデータ表現、つまり固定された規則的なグリッドを活用するように特別に設計されています。ただし、不規則な近傍を含む3D点群のような非構造化データは、グリッドベースのデータの仮定を常に破ります。したがって、2D画像の学習方法からのベストプラクティスと設計の選択を点群の処理に適用することは簡単にはできません。この作業では、効率的なGPU実装とともに、従来の畳み込み層の自然な一般化フレックス畳み込みを紹介します。より少ないパラメーターとより少ないメモリ消費量を使用して、かなり小さなベンチマークセットで競争力のあるパフォーマンスを示し、100万規模の実際のデータセットで大幅な改善を実現します。 700万ポイントを同時に効率的に処理できる最初のソリューションです。
Traditional convolution layers are specifically designed to exploit the natural data representation of images -- a fixed and regular grid. However, unstructured data like 3D point clouds containing irregular neighborhoods constantly breaks the grid-based data assumption. Therefore applying best-practices and design choices from 2D-image learning methods towards processing point clouds are not readily possible. In this work, we introduce a natural generalization flex-convolution of the conventional convolution layer along with an efficient GPU implementation. We demonstrate competitive performance on rather small benchmark sets using fewer parameters and lower memory consumption and obtain significant improvements on a million-scale real-world dataset. Ours is the first which allows to efficiently process 7 million points concurrently.