この論文では、線形形状モデルとしての3D点群の古典的な表現を再検討します。私たちの重要な洞察は、深層学習を活用して、形状のコレクションを低次元の線形形状モデルのアフィン変換として表現することです。各線形モデルは、形状プロトタイプ、低次元形状基底、および2つのニューラルネットワークによって特徴付けられます。ネットワークは入力として点群を取り、線形ベースで形状の座標と入力を最もよく近似するアフィン変換を予測します。線形モデルとニューラルネットワークの両方が、単一の再構成損失を使用してエンドツーエンドで学習されます。私たちのアプローチの主な利点は、特徴ベースの複雑な形状表現を学習する最近の多くの深いアプローチとは対照的に、私たちのモデルは明示的であり、すべての操作が3D空間で行われることです。その結果、当社の線形形状モデルを簡単に視覚化して注釈を付けることができ、故障事例を視覚的に理解することができます。私たちの主な目標は、形状コレクションのコンパクトで解釈可能な表現を導入することですが、それが数ショットのセグメンテーションの最先端の結果につながることを示しています。
In this paper, we revisit the classical representation of 3D point clouds as linear shape models. Our key insight is to leverage deep learning to represent a collection of shapes as affine transformations of low-dimensional linear shape models. Each linear model is characterized by a shape prototype, a low-dimensional shape basis and two neural networks. The networks take as input a point cloud and predict the coordinates of a shape in the linear basis and the affine transformation which best approximate the input. Both linear models and neural networks are learned end-to-end using a single reconstruction loss. The main advantage of our approach is that, in contrast to many recent deep approaches which learn feature-based complex shape representations, our model is explicit and every operation occurs in 3D space. As a result, our linear shape models can be easily visualized and annotated, and failure cases can be visually understood. While our main goal is to introduce a compact and interpretable representation of shape collections, we show it leads to state of the art results for few-shot segmentation.