arXiv reaDer
3D-LatentMapper: ビューにとらわれない単一ビューによる 3D 形状の再構成
3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes
コンピュータ グラフィックス、3D コンピュータ ビジョン、ロボット工学のコミュニティは、3D 形状を表現および生成するための複数のアプローチと、膨大な数のユース ケースを生み出してきました。ただし、単一ビューの再構成は、インタラクティブなデザインなど、さまざまな興味深いユースケースを解き放つことができる挑戦的なトピックのままです。この作業では、高速で効率的なシングル ビュー再構成 (SVR) のために、ビジョン トランスフォーマー (ViT) の中間潜在空間と共同画像テキスト表現モデル、CLIP を活用する新しいフレームワークを提案します。より具体的には、ViT と CLIP から抽出された深い特徴と、ベース 3D 生成モデルの潜在空間との間のマッピングを学習する、新しいマッピング ネットワーク アーキテクチャを提案します。以前の研究とは異なり、私たちの方法は、大きなオクルージョンが存在する場合でも、3D 形状のビューに依存しない再構成を可能にします。 ShapeNetV2 データセットを使用し、SOTA メソッドと比較して広範な実験を行い、メソッドの有効性を実証します。
Computer graphics, 3D computer vision and robotics communities have produced multiple approaches to represent and generate 3D shapes, as well as a vast number of use cases. However, single-view reconstruction remains a challenging topic that can unlock various interesting use cases such as interactive design. In this work, we propose a novel framework that leverages the intermediate latent spaces of Vision Transformer (ViT) and a joint image-text representational model, CLIP, for fast and efficient Single View Reconstruction (SVR). More specifically, we propose a novel mapping network architecture that learns a mapping between deep features extracted from ViT and CLIP, and the latent space of a base 3D generative model. Unlike previous work, our method enables view-agnostic reconstruction of 3D shapes, even in the presence of large occlusions. We use the ShapeNetV2 dataset and perform extensive experiments with comparisons to SOTA methods to demonstrate our method's effectiveness.
updated: Mon Dec 05 2022 11:45:26 GMT+0000 (UTC)
published: Mon Dec 05 2022 11:45:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト