トランスフォーマーは、シーケンシャルデータの長距離依存関係をモデル化できるため、画像、音声、テキストの生成など、さまざまな生成タスクで優れたパフォーマンスを発揮します。それでも、高解像度の点群など、構造化されていない大量のデータ形式を生成する際にそれらを使いこなすことが、あいまいなシーケンシャル化プロセスと実行不可能な計算負荷のために検討されることはめったにありません。この論文では、変圧器の能力をさらに活用し、3D点群生成のタスクにそれらを使用することを目指しています。重要なアイデアは、学習した標準空間を介して、1つのカテゴリの点群を意味的に整列した形状構成のシーケンスに分解することです。次に、これらの形状構成を量子化して、点群生成のためのコンテキストが豊富な構成コードブックを学習するために使用できます。点群の再構築と無条件の生成に関する実験結果は、私たちのモデルが最先端のアプローチに対して有利に機能することを示しています。さらに、条件付き形状生成のアプリケーションとして、モデルをマルチモーダル形状完成に簡単に拡張できます。
With the capacity of modeling long-range dependencies in sequential data, transformers have shown remarkable performances in a variety of generative tasks such as image, audio, and text generation. Yet, taming them in generating less structured and voluminous data formats such as high-resolution point clouds have seldom been explored due to ambiguous sequentialization processes and infeasible computation burden. In this paper, we aim to further exploit the power of transformers and employ them for the task of 3D point cloud generation. The key idea is to decompose point clouds of one category into semantically aligned sequences of shape compositions, via a learned canonical space. These shape compositions can then be quantized and used to learn a context-rich composition codebook for point cloud generation. Experimental results on point cloud reconstruction and unconditional generation show that our model performs favorably against state-of-the-art approaches. Furthermore, our model can be easily extended to multi-modal shape completion as an application for conditional shape generation.