arXiv reaDer
ゼロショット3D形状対応
Zero-Shot 3D Shape Correspondence
3D 形状間の対応関係を計算するための新しいゼロショット アプローチを提案します。既存のアプローチは主に等長およびほぼ等長の形状ペア (例: 人間対人間) に焦点を当てていますが、強度の非等長およびクラス間形状マッチング (例: 人間対牛) にはあまり注目されていません。この目的を達成するために、言語と視覚における最近の基礎モデルの卓越した推論能力を活用して、困難な形状対応問題に取り組む完全自動手法を導入します。私たちのアプローチは複数の段階で構成されています。まず、レンダリングされた形状ビューを言語視覚モデル (BLIP2 など) にフィードして、形状ごとのクラス提案のリストを生成することにより、ゼロショット方式で 3D 形状を分類します。これらの提案は、ChatGPT の推論機能を使用して、形状ごとに 1 つのクラスに統合されます。第 2 に、ゼロショット方式で 2 つの形状をセグメント化しようとしますが、共セグメント化の問題とは対照的に、意味領域の相互セットは必要ありません。代わりに、ChatGPT のインコンテキスト学習機能を利用して、形状ごとに 2 つの異なるセマンティック領域セットとそれらの間のセマンティック マッピングを生成することを提案します。これにより、幾何学的構造の大きな違いを持つ非等長形状を強く照合するアプローチが可能になります。最後に、生成されたセマンティック マッピングを使用して大まかな対応関係を生成します。この対応関係は、関数マップ フレームワークによってさらに洗練されて、高密度のポイントツーポイント マップを生成できます。私たちのアプローチは、その単純さにも関わらず、特に非アイソメトリック形状間で、ゼロショット方式で非常に妥当性の高い結果を生成します。
We propose a novel zero-shot approach to computing correspondences between 3D shapes. Existing approaches mainly focus on isometric and near-isometric shape pairs (e.g., human vs. human), but less attention has been given to strongly non-isometric and inter-class shape matching (e.g., human vs. cow). To this end, we introduce a fully automatic method that exploits the exceptional reasoning capabilities of recent foundation models in language and vision to tackle difficult shape correspondence problems. Our approach comprises multiple stages. First, we classify the 3D shapes in a zero-shot manner by feeding rendered shape views to a language-vision model (e.g., BLIP2) to generate a list of class proposals per shape. These proposals are unified into a single class per shape by employing the reasoning capabilities of ChatGPT. Second, we attempt to segment the two shapes in a zero-shot manner, but in contrast to the co-segmentation problem, we do not require a mutual set of semantic regions. Instead, we propose to exploit the in-context learning capabilities of ChatGPT to generate two different sets of semantic regions for each shape and a semantic mapping between them. This enables our approach to match strongly non-isometric shapes with significant differences in geometric structure. Finally, we employ the generated semantic mapping to produce coarse correspondences that can further be refined by the functional maps framework to produce dense point-to-point maps. Our approach, despite its simplicity, produces highly plausible results in a zero-shot manner, especially between strongly non-isometric shapes.
updated: Mon Jun 05 2023 21:14:23 GMT+0000 (UTC)
published: Mon Jun 05 2023 21:14:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト