arXiv reaDer
VPFusion:シングルビューおよびマルチビューの3D再構成のための3Dボリュームとピクセル整列機能の融合
VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction
統合されたシングルビューおよびマルチビューのニューラル暗黙的3D再構築フレームワークVPFusionを紹介します。 VPFusion〜は、3D構造を意識したコンテキストをキャプチャするための3D特徴ボリュームと、細かい局所的な詳細をキャプチャするためのピクセル整列画像特徴の両方を使用して、高品質の再構成を実現します。既存のアプローチでは、マルチビューフュージョンのために、RNN、機能プーリング、または各ビューで個別に計算されたアテンションを使用します。 RNNは長期記憶の喪失と順列の変動に悩まされますが、機能のプーリングまたは独立して計算された注意により、各ビューの表現は、最後のプーリングステップの前に他のビューを認識しなくなります。対照的に、トランスフォーマーベースのペアワイズビューアソシエーションを確立することにより、マルチビュー機能の融合が改善されていることを示します。特に、異なるビュー間で機能ボリュームを融合するための、新しいインターリーブ3D推論とペアワイズビューアソシエーションアーキテクチャを提案します。この構造認識およびマルチビュー認識の機能ボリュームを使用して、既存の方法と比較して改善された3D再構成パフォーマンスを示します。 VPFusionは、ピクセルアラインされたローカル画像機能を組み込んで細部をキャプチャすることにより、再構成の品質をさらに向上させます。 ShapeNetおよびModelNetデータセットでVPFusionの有効性を検証します。ここでは、最先端のシングルビューおよびマルチビューの3D形状再構成方法よりも優れているか、同等のパフォーマンスを発揮します。
We introduce a unified single and multi-view neural implicit 3D reconstruction framework VPFusion. VPFusion~attains high-quality reconstruction using both - 3D feature volume to capture 3D-structure-aware context, and pixel-aligned image features to capture fine local detail. Existing approaches use RNN, feature pooling, or attention computed independently in each view for multi-view fusion. RNNs suffer from long-term memory loss and permutation variance, while feature pooling or independently computed attention leads to representation in each view being unaware of other views before the final pooling step. In contrast, we show improved multi-view feature fusion by establishing transformer-based pairwise view association. In particular, we propose a novel interleaved 3D reasoning and pairwise view association architecture for feature volume fusion across different views. Using this structure-aware and multi-view-aware feature volume, we show improved 3D reconstruction performance compared to existing methods. VPFusion improves the reconstruction quality further by also incorporating pixel-aligned local image features to capture fine detail. We verify the effectiveness of VPFusion~on the ShapeNet and ModelNet datasets, where we outperform or perform on-par the state-of-the-art single and multi-view 3D shape reconstruction methods.
updated: Mon Mar 14 2022 23:30:58 GMT+0000 (UTC)
published: Mon Mar 14 2022 23:30:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト