Unsupervised Monocular Depth Prediction for Indoor Continuous Video Streams
 この論文は、教師なし単眼深度予測問題を研究しています。既存の教師なし深度予測アルゴリズムのほとんどは屋外シナリオ向けに開発されていますが、屋内環境での深度予測の作業は、私たちの知る限り非常に少ないです。したがって、この作業では、まず屋内環境での既存のアプローチを評価し、次にアーキテクチャの最新設計を改善することにより、ギャップを狭めることに焦点を当てています。モーション制約のあるKITTIなどの一般的な屋外トレーニングデータセットとは異なり、屋内環境のデータには、任意のカメラの動きと2つの連続した画像間の短いベースラインが含まれ、ポーズ推定のネットワークトレーニングが低下します。この問題に対処するために、2つの方法を提案します。まず、拘束推定に新しい再構成損失関数を提案し、予測視差マップの精度を向上させます。次に、メディアンフィルターと共にフリッピング戦略を使用したアンサンブル学習を使用し、出力視差マップで直接操作を行います。 TUM RGB-Dおよび自己収集データセットに対するアプローチを評価します。結果は、両方のアプローチが以前の最先端の教師なし学習アプローチよりも優れていることを示しています。
This paper studies unsupervised monocular depth prediction problem. Most of existing unsupervised depth prediction algorithms are developed for outdoor scenarios, while the depth prediction work in the indoor environment is still very scarce to our knowledge. Therefore, this work focuses on narrowing the gap by firstly evaluating existing approaches in the indoor environments and then improving the state-of-the-art design of architecture. Unlike typical outdoor training dataset, such as KITTI with motion constraints, data for indoor environment contains more arbitrary camera movement and short baseline between two consecutive images, which deteriorates the network training for the pose estimation. To address this issue, we propose two methods: Firstly, we propose a novel reconstruction loss function to constraint pose estimation, resulting in accuracy improvement of the predicted disparity map; secondly, we use an ensemble learning with a flipping strategy along with a median filter, directly taking operation on the output disparity map. We evaluate our approaches on the TUM RGB-D and self-collected datasets. The results have shown that both approaches outperform the previous state-of-the-art unsupervised learning approaches.
updated: Wed Nov 20 2019 16:08:10 GMT+0000 (UTC)
published: Wed Nov 20 2019 16:08:10 GMT+0000 (UTC)
