arXiv reaDer
3D点群での教師なし表現学習のための点識別学習
Point Discriminative Learning for Unsupervised Representation Learning on 3D Point Clouds
教師なし学習は、最近、自然言語理解と2D画像ドメインで大きな成功を収めています。教師なし学習の力を3D点群分析に活用する方法は未解決のままです。ほとんどの既存の方法は、3Dデータの特異性を十分に活用することなく、2Dドメインで使用される手法を3Dドメインに適応させるだけです。この作業では、点群データ用に特別に設計され、ローカルおよびグローバルな形状特徴を学習できる、3D点群での教師なし表現学習のための点識別学習方法を提案します。これは、バックボーンネットワークによって生成されるミドルレベルおよびグローバルレベルの機能に新しいポイント識別損失を課すことによって実現されます。この点識別損失は、対応する局所形状領域に属する点と一致し、ランダムにサンプリングされたノイズのある点と一致しないように特徴を強制します。私たちの方法は設計が単純で、バックボーンエンコーダーの教師なしトレーニング用に追加の適応モジュールとポイント整合性モジュールを追加することで機能します。トレーニングが完了すると、これら2つのモジュールは、ダウンストリームタスクの分類子またはデコーダーの教師ありトレーニング中に破棄できます。さまざまな設定で3Dオブジェクト分類、3Dセマンティック、およびパーツセグメンテーションに関する広範な実験を実施し、新しい最先端の結果を実現します。また、メソッドの詳細な分析を実行し、学習した教師なし特徴から再構築された局所形状がグラウンドトゥルース形状と非常に一致していることを視覚的に示します。
Unsupervised learning has witnessed tremendous success in natural language understanding and 2D image domain recently. How to leverage the power of unsupervised learning for 3D point cloud analysis remains open. Most existing methods simply adapt techniques used in 2D domain to 3D domain, while not fully exploiting the specificity of 3D data. In this work we propose a point discriminative learning method for unsupervised representation learning on 3D point clouds, which is specially designed for point cloud data and can learn local and global shape features. We achieve this by imposing a novel point discrimination loss on the middle level and global level features produced by the backbone network. This point discrimination loss enforces the features to be consistent with points belonging to the corresponding local shape region and inconsistent with randomly sampled noisy points. Our method is simple in design, which works by adding an extra adaptation module and a point consistency module for unsupervised training of the backbone encoder. Once trained, these two modules can be discarded during supervised training of the classifier or decoder for downstream tasks. We conduct extensive experiments on 3D object classification, 3D semantic and part segmentation in various settings and achieve new state-of-the-art results. We also perform a detailed analysis of our method and visually demonstrate that the reconstructed local shapes from our learned unsupervised features are highly consistent with the ground-truth shapes.
updated: Sat Nov 27 2021 07:36:07 GMT+0000 (UTC)
published: Wed Aug 04 2021 15:11:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト