組織化されていない3D点群のコンパクトな表現を教師なしで実現するために、グラフトポロジの推論とフィルタリングを備えたディープオートエンコーダを提案します。これまでの多くの研究では、3Dポイントをボクセルに離散化し、格子ベースの方法を使用して3D空間情報を処理および学習しています。ただし、これは避けられない離散化エラーにつながります。この作業では、このような妥協のない生の3Dポイントを処理します。提案されたネットワークは、デコーダーの設計に重点を置いたオートエンコーダーフレームワークに従います。エンコーダは、PointNetと同様のアーキテクチャを採用しています。デコーダーには3つの新しいモジュールが含まれます。折りたたみモジュールは、標準の2Dラティスを3Dポイントクラウドの基礎となる表面に折りたたみ、粗い再構成を実現します。グラフトポロジ推論モジュールは、3Dポイント間のペア関係を表すグラフトポロジを学習し、潜在コードをプッシュして、3Dポイントクラウド内のポイントの座標とペア関係の両方を保持します。グラフフィルタリングモジュールは上記の2つのモジュールを結合し、学習したグラフトポロジを介して粗い再構成を洗練し、最終的な再構成を取得します。提案されたデコーダは、学習可能なグラフトポロジを活用してコードワードをプッシュし、代表的な機能を保持し、教師なし学習のパフォーマンスをさらに向上させます。さらに、提案されたアーキテクチャの理論的分析を提供します。実験では、3Dポイントクラウドの再構築、視覚化、転送分類を含む3つのタスクで提案されたネットワークを検証します。実験結果は、(1)提案されたネットワークがさまざまなタスクで最先端の方法より優れていることを示しています。 (2)グラフトポロジは、グラフトポロジの推論に関する特別な監督なしに、補助情報として推測できます。 (3)グラフフィルタリングにより再構成が改善され、パフォーマンスが向上します。
We propose a deep autoencoder with graph topology inference and filtering to achieve compact representations of unorganized 3D point clouds in an unsupervised manner. Many previous works discretize 3D points to voxels and then use lattice-based methods to process and learn 3D spatial information; however, this leads to inevitable discretization errors. In this work, we handle raw 3D points without such compromise. The proposed networks follow the autoencoder framework with a focus on designing the decoder. The encoder adopts similar architectures as in PointNet. The decoder involves three novel modules. The folding module folds a canonical 2D lattice to the underlying surface of a 3D point cloud, achieving coarse reconstruction; the graph-topology-inference module learns a graph topology to represent pairwise relationships between 3D points, pushing the latent code to preserve both coordinates and pairwise relationships of points in 3D point clouds; and the graph-filtering module couples the above two modules, refining the coarse reconstruction through a learnt graph topology to obtain the final reconstruction. The proposed decoder leverages a learnable graph topology to push the codeword to preserve representative features and further improve the unsupervised-learning performance. We further provide theoretical analyses of the proposed architecture. In the experiments, we validate the proposed networks in three tasks, including 3D point cloud reconstruction, visualization, and transfer classification. The experimental results show that (1) the proposed networks outperform the state-of-the-art methods in various tasks; (2) a graph topology can be inferred as auxiliary information without specific supervision on graph topology inference; and (3) graph filtering refines the reconstruction, leading to better performances.