3Dポイントクラウドに本質的に存在する不規則性と不均一性の課題に対処するため、研究者は、3Dポイントクラウド分類にディープニューラルネットワークを使用して、ハンドクラフトポイントフィーチャの設計から3Dポイントシグネチャの学習に焦点を移しています。最近提案された深層学習ベースのポイントクラウド分類方法は、投影された特徴画像に2D CNNを適用するか、生のポイントセットに1D畳み込み層を直接適用します。これらの方法では、点群データの密度分布が不均一であることに起因する、きめの細かい局所構造を適切に認識できません。このホワイトペーパーでは、この困難な問題に対処するために、点単位の密度を使用して畳み込みカーネルの学習可能な重みを再重み付けする密度認識畳み込みモジュールを導入しました。提案された畳み込みモジュールは、不均一に分布した3Dポイントセットでの3D連続畳み込みを完全に近似できます。この畳み込みモジュールに基づいて、ダウンサンプリングブロックとアップサンプリングブロックを備えたマルチスケール完全畳み込みニューラルネットワークをさらに開発し、階層ポイント機能学習を可能にしました。さらに、グローバルセマンティックコンテキストを正規化するために、グローバルコンテキストエンコーディングを予測するコンテキストエンコーディングモジュールを実装し、コンテキストエンコーディングレギュラライザを定式化して、予測されたコンテキストエンコーディングをグラウンドトゥルースエンコーディングに合わせます。ネットワーク全体は、生の3D座標と入力としての地上高を使用して、エンドツーエンドの方法でトレーニングできます。国際写真測量およびリモートセンシング(ISPRS)3Dラベリングベンチマークに関する実験では、提案されたポイントクラウド分類方法の優位性が実証されました。このモデルは、F1の平均スコアが71.2%の新しい最先端のパフォーマンスを達成し、いくつかのカテゴリでパフォーマンスを大幅に改善しました。
To better address challenging issues of the irregularity and inhomogeneity inherently present in 3D point clouds, researchers have been shifting their focus from the design of hand-craft point feature towards the learning of 3D point signatures using deep neural networks for 3D point cloud classification. Recent proposed deep learning based point cloud classification methods either apply 2D CNN on projected feature images or apply 1D convolutional layers directly on raw point sets. These methods cannot adequately recognize fine-grained local structures caused by the uneven density distribution of the point cloud data. In this paper, to address this challenging issue, we introduced a density-aware convolution module which uses the point-wise density to re-weight the learnable weights of convolution kernels. The proposed convolution module is able to fully approximate the 3D continuous convolution on unevenly distributed 3D point sets. Based on this convolution module, we further developed a multi-scale fully convolutional neural network with downsampling and upsampling blocks to enable hierarchical point feature learning. In addition, to regularize the global semantic context, we implemented a context encoding module to predict a global context encoding and formulated a context encoding regularizer to enforce the predicted context encoding to be aligned with the ground truth one. The overall network can be trained in an end-to-end fashion with the raw 3D coordinates as well as the height above ground as inputs. Experiments on the International Society for Photogrammetry and Remote Sensing (ISPRS) 3D labeling benchmark demonstrated the superiority of the proposed method for point cloud classification. Our model achieved a new state-of-the-art performance with an average F1 score of 71.2% and improved the performance by a large margin on several categories.