3D点群は、3D構造の効率的で柔軟な表現です。最近、ポイントクラウド上で動作するニューラルネットワークは、形状分類やパーツセグメンテーションなどの3D理解タスクで優れたパフォーマンスを示しています。ただし、このようなタスクのパフォーマンスは、標準的なフレームに配置された完全な形状で評価されますが、実際の3Dデータは部分的で配置されていません。部分的で非整列の点群データから学習する際の重要な課題は、幾何学的変換に関して不変または等価な特徴を学習することです。この課題に対処するために、反復トランスフォームネットワーク(IT-Net)を提案します。これは、反復的な方法で予測される一連の3D剛体変換で部分オブジェクトの姿勢を正規化するネットワークモジュールです。完全なオブジェクトモデルを使用せずに、部分ポイントクラウドからいつでもポーズ推定器としてIT-Netの有効性を実証します。さらに、部分形状分類やオブジェクトパーツのセグメンテーションなど、さまざまなタスクでIT-Netが代替の3Dトランスフォーマーネットワークよりも優れたパフォーマンスを達成することを示します。
3D point cloud is an efficient and flexible representation of 3D structures. Recently, neural networks operating on point clouds have shown superior performance on 3D understanding tasks such as shape classification and part segmentation. However, performance on such tasks is evaluated on complete shapes aligned in a canonical frame, while real world 3D data are partial and unaligned. A key challenge in learning from partial, unaligned point cloud data is to learn features that are invariant or equivariant with respect to geometric transformations. To address this challenge, we propose the Iterative Transformer Network (IT-Net), a network module that canonicalizes the pose of a partial object with a series of 3D rigid transformations predicted in an iterative fashion. We demonstrate the efficacy of IT-Net as an anytime pose estimator from partial point clouds without using complete object models. Further, we show that IT-Net achieves superior performance over alternative 3D transformer networks on various tasks, such as partial shape classification and object part segmentation.