AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network
この論文では、適応型集約を備えた長短期記憶(LSTM)、すなわちAA-RMVSNetに基づく新しいリカレントマルチビューステレオネットワークを紹介します。まず、ビュー内集約モジュールを導入して、コンテキスト認識畳み込みとマルチスケール集約を使用して画像の特徴を適応的に抽出します。これにより、薄いオブジェクトや大きな低テクスチャ表面などの困難な領域でのパフォーマンスが効率的に向上します。複雑なシーンでオクルージョンを変化させることの難しさを克服するために、すべてのビュー間でより一致するペアを保持できる、適応ピクセル単位のビュー集約のためのビュー間コストボリューム集約モジュールを提案します。提案された2つの適応型集約モジュールは、3D再構成の精度と完全性の向上に関して、軽量で効果的かつ補完的です。従来の3DCNNの代わりに、コストボリュームの正則化のために反復構造を持つハイブリッドネットワークを利用します。これにより、高解像度の再構築とより細かい仮想平面スイープが可能になります。提案されたネットワークはエンドツーエンドでトレーニングされ、さまざまなデータセットで優れたパフォーマンスを実現します。これは、Tanks and Templesベンチマークのすべての提出物の中で第1位にランクされ、強力な一般化可能性と堅牢性を示すDTUデータセットで競争力のある結果を達成します。このメソッドの実装は、で入手できます。
In this paper, we present a novel recurrent multi-view stereo network based on long short-term memory (LSTM) with adaptive aggregation, namely AA-RMVSNet. We firstly introduce an intra-view aggregation module to adaptively extract image features by using context-aware convolution and multi-scale aggregation, which efficiently improves the performance on challenging regions, such as thin objects and large low-textured surfaces. To overcome the difficulty of varying occlusion in complex scenes, we propose an inter-view cost volume aggregation module for adaptive pixel-wise view aggregation, which is able to preserve better-matched pairs among all views. The two proposed adaptive aggregation modules are lightweight, effective and complementary regarding improving the accuracy and completeness of 3D reconstruction. Instead of conventional 3D CNNs, we utilize a hybrid network with recurrent structure for cost volume regularization, which allows high-resolution reconstruction and finer hypothetical plane sweep. The proposed network is trained end-to-end and achieves excellent performance on various datasets. It ranks 1^st among all submissions on Tanks and Temples benchmark and achieves competitive results on DTU dataset, which exhibits strong generalizability and robustness. Implementation of our method is available at
updated: Mon Aug 09 2021 06:10:48 GMT+0000 (UTC)
published: Mon Aug 09 2021 06:10:48 GMT+0000 (UTC)
