arXiv reaDer
部分点群での3Dオブジェクト分類:実用的な展望
3D Object Classification on Partial Point Clouds: A Practical Perspective
画像内のオブジェクト分類の3D対応物として、オブジェクトポイントクラウド分類は3Dシーンの理解の基本であり、ModelNetやShapeNetなどのベンチマークデータセットのリリース以来、大きな研究の注目を集めています。これらのベンチマークは、オブジェクトインスタンスの完全な表面をカバーする点群を想定しており、そのために多くの高性能メソッドが開発されています。ただし、それらの設定は、(自己)閉塞のために、オブジェクトの部分的な表面を覆う点群が任意のビューからキャプチャされる、実際によく見られる設定とは異なります。この論文では、既存の点群分類方法のパフォーマンスが、考慮されている実用的な単一ビューの部分的な設定の下で大幅に低下することを示します。この現象は、部分的なオブジェクトサーフェスのセマンティックカテゴリが、サーフェス全体での分布が明確に指定されている場合にのみあいまいさが少なくなるという観察結果と一致しています。この目的のために、オブジェクトポーズ推定の教師あり学習に分類を伴う必要がある単一ビューの部分的な設定について議論します。技術的には、ポーズを伴う点群分類ネットワーク(PAPNet)のベースライン方法を提案します。 SE(3)-同変畳み込みに基づいて構築されたPAPNetは、ベクトル場で定義された同変特徴の中間ポーズ変換を学習します。これにより、カテゴリレベルの標準ポーズでの後続の分類が(理想的には)簡単になります。ポイントセット分類に関する既存のModelNet40およびScanNetデータセットを、導入された単一ビューの部分設定に適合させて、仮説を検証します。徹底的な実験により、物体の姿勢推定の必要性が確認されました。また、PAPNetは、新しいベンチマークで既存の方法を大幅に上回っています。
As a 3D counterpart of object classification in images, object point cloud classification is fundamental to 3D scene understanding, and has drawn great research attention since the release of benchmarking datasets, such as the ModelNet and the ShapeNet. These benchmarks assume point clouds covering complete surfaces of object instances, for which plenty of high-performing methods have been developed. However, their settings deviate from those often met in practice, where, due to (self-)occlusion, a point cloud covering partial surface of an object is captured from an arbitrary view. We show in this paper that performance of existing point cloud classification methods drops drastically under the considered practical single-view, partial setting; the phenomenon is consistent with the observation that semantic category of a partial object surface is less ambiguous only when its distribution on the whole surface is clearly specified. To this end, we argue for a single-view, partial setting where supervised learning of object pose estimation should be accompanied with classification. Technically, we propose a baseline method of Pose-Accompanied Point cloud classification Network (PAPNet); built upon SE(3)-equivariant convolutions, the PAPNet learns intermediate pose transformations for equivariant features defined on vector fields, which makes the subsequent classification easier (ideally) in the category-level, canonical pose. We adapt existing ModelNet40 and ScanNet datasets on point set classification to the introduced single-view, partial setting to verify our hypothesis. Thorough experiments confirm the necessity of object pose estimation; our PAPNet also outperforms existing methods greatly on the new benchmarks.
updated: Mon Jun 21 2021 03:13:56 GMT+0000 (UTC)
published: Fri Dec 18 2020 04:00:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト