arXiv reaDer
MonoIndoor ++:屋内環境のための自己監視単眼深度推定のより良い実践に向けて
MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments
自己監視単眼深度推定は、特に屋外環境において、近年大きな進歩を遂げています。ただし、既存のデータのほとんどがハンドヘルドデバイスでキャプチャされる屋内シーンでは、深度予測の結果は満足のいくものではありません。屋外環境と比較して、自己監視方式を使用して屋内環境の単眼ビデオの深度を推定すると、2つの追加の課題が発生します。(i)屋内ビデオシーケンスの深度範囲はフレームごとに大きく異なり、深度を把握するのが困難です。トレーニングのための一貫した深さの手がかりを誘発するネットワーク。 (ii)ハンドヘルドデバイスで記録された屋内シーケンスには、多くの場合、はるかに多くの回転運動が含まれているため、ポーズネットワークが正確な相対カメラポーズを予測するのが困難になります。この作業では、これらの課題に特別な考慮を払い、屋内環境の自己監視単眼深度推定のパフォーマンスを向上させるための一連の優れたプラクティスを統合することにより、新しいフレームワークであるMonoIndoor++を提案します。最初に、トランスベースのスケール回帰ネットワークを備えた深度因数分解モジュールを提案して、グローバル深度スケール係数を明示的に推定し、予測されたスケール係数は最大深度値を示すことができます。第2に、以前の方法のように1段階のポーズ推定戦略を使用するのではなく、残差ポーズ推定モジュールを使用して、連続するフレーム全体の相対的なカメラポーズを繰り返し推定することを提案します。第三に、残差ポーズ推定モジュールの広範な座標ガイダンスを組み込むために、ポーズネットワークへの入力に対して直接座標畳み込み符号化を実行することを提案します。提案された方法は、EuRoC MAV、NYUv2、ScanNet、7-Scenesなどのさまざまなベンチマーク屋内データセットで検証され、最先端のパフォーマンスを示しています。
Self-supervised monocular depth estimation has seen significant progress in recent years, especially in outdoor environments. However, depth prediction results are not satisfying in indoor scenes where most of the existing data are captured with hand-held devices. As compared to outdoor environments, estimating depth of monocular videos for indoor environments, using self-supervised methods, results in two additional challenges: (i) the depth range of indoor video sequences varies a lot across different frames, making it difficult for the depth network to induce consistent depth cues for training; (ii) the indoor sequences recorded with handheld devices often contain much more rotational motions, which cause difficulties for the pose network to predict accurate relative camera poses. In this work, we propose a novel framework-MonoIndoor++ by giving special considerations to those challenges and consolidating a set of good practices for improving the performance of self-supervised monocular depth estimation for indoor environments. First, a depth factorization module with transformer-based scale regression network is proposed to estimate a global depth scale factor explicitly, and the predicted scale factor can indicate the maximum depth values. Second, rather than using a single-stage pose estimation strategy as in previous methods, we propose to utilize a residual pose estimation module to estimate relative camera poses across consecutive frames iteratively. Third, to incorporate extensive coordinates guidance for our residual pose estimation module, we propose to perform coordinate convolutional encoding directly over the inputs to pose networks. The proposed method is validated on a variety of benchmark indoor datasets, i.e., EuRoC MAV, NYUv2, ScanNet and 7-Scenes, demonstrating the state-of-the-art performance.
updated: Mon Jul 18 2022 21:34:43 GMT+0000 (UTC)
published: Mon Jul 18 2022 21:34:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト