arXiv reaDer
VoRTX:Voxelwiseビューの選択と融合のためのトランスフォーマーを使用したボリューム3D再構成
VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View Selection and Fusion
最近の体積3D再構成法は、観察されていない表面に対してももっともらしい形状で、非常に正確な結果を生み出すことができます。ただし、マルチビューフュージョンに関しては、望ましくないトレードオフに直面します。グローバル平均によって利用可能なすべてのビュー情報を融合して詳細を失うか、ローカル融合のためにヒューリスティックにビューをクラスター化して、すべてのビューを一緒に検討する能力を制限することができます。私たちの重要な洞察は、カメラのポーズと画像コンテンツを条件としたビューフュージョン機能を学習することで、ビューの多様性を制限することなく、より詳細な情報を保持できることです。トランスフォーマーを使用して、このマルチビューフュージョンを学習することを提案します。この目的のために、VoRTXを紹介します。これは、ワイドベースラインのマルチビュー機能融合のためにトランスフォーマーを使用したエンドツーエンドのボリューム3D再構成ネットワークです。私たちのモデルはオクルージョンを認識しており、トランスフォーマーアーキテクチャを利用して、初期の射影シーンジオメトリ推定を予測します。この推定値は、表面を介して遮蔽された領域に画像の特徴を逆投影することを回避するために使用されます。 ScanNetでモデルをトレーニングし、最先端の方法よりも優れた再構成を生成することを示します。また、微調整を行わずに一般化を示し、他の2つのデータセットであるTUM-RGBDとICL-NUIMで同じ最先端の方法を上回っています。
Recent volumetric 3D reconstruction methods can produce very accurate results, with plausible geometry even for unobserved surfaces. However, they face an undesirable trade-off when it comes to multi-view fusion. They can fuse all available view information by global averaging, thus losing fine detail, or they can heuristically cluster views for local fusion, thus restricting their ability to consider all views jointly. Our key insight is that greater detail can be retained without restricting view diversity by learning a view-fusion function conditioned on camera pose and image content. We propose to learn this multi-view fusion using a transformer. To this end, we introduce VoRTX, an end-to-end volumetric 3D reconstruction network using transformers for wide-baseline, multi-view feature fusion. Our model is occlusion-aware, leveraging the transformer architecture to predict an initial, projective scene geometry estimate. This estimate is used to avoid backprojecting image features through surfaces into occluded regions. We train our model on ScanNet and show that it produces better reconstructions than state-of-the-art methods. We also demonstrate generalization without any fine-tuning, outperforming the same state-of-the-art methods on two other datasets, TUM-RGBD and ICL-NUIM.
updated: Wed Dec 01 2021 02:18:11 GMT+0000 (UTC)
published: Wed Dec 01 2021 02:18:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト