arXiv reaDer
テクスチャのない屋内回転シーンの自己監視単眼深度推定
Self-Supervised Monocular Depth Estimation of Untextured Indoor Rotated Scenes
自己教師あり深層学習法は、単眼深度推定のトレーニングにステレオ画像を活用しています。これらの方法は、KITTIなどの屋外データセットで強力な結果を示していますが、カメラの回転を伴う屋内環境での教師あり方法のパフォーマンスとは一致しません。屋内の回転したシーンは、制約の少ないアプリケーションで一般的であり、2つの理由で問題を引き起こします。それは、低テクスチャ領域が豊富にあることと、回転中の画像の深度キューが複雑になることです。自己教師あり学習をより一般化された環境に拡張するために、2つの追加を提案します。最初に、テクスチャのない領域での画像再構成エラー損失のあいまいさを修正する新しい塗りつぶし視差損失項を提案します。具体的には、周囲のテクスチャ領域からの推定された視差を使用して、テクスチャのない領域の視差を補間し、L1損失を使用して元の推定を修正します。私たちの実験は、ゴダールらによるモノデプスと比較した場合、テクスチャシーンを失うことなく、低テクスチャシーンで深度推定が大幅に改善されることを示しています。次に、ピッチとロールの両方で、アプリケーションの代表的なローテーションを使用したトレーニングで、予想されるローテーションの全範囲でパフォーマンスを大幅に向上させることができることを示します。カメラを回転させないテストセットで評価したときにパフォーマンスが失われないため、深度推定が正常に一般化されることを示します。これらの開発を組み合わせることで、複雑な環境での単眼深度推定の自己教師あり学習の幅広い使用が可能になります。
Self-supervised deep learning methods have leveraged stereo images for training monocular depth estimation. Although these methods show strong results on outdoor datasets such as KITTI, they do not match performance of supervised methods on indoor environments with camera rotation. Indoor, rotated scenes are common for less constrained applications and pose problems for two reasons: abundance of low texture regions and increased complexity of depth cues for images under rotation. In an effort to extend self-supervised learning to more generalised environments we propose two additions. First, we propose a novel Filled Disparity Loss term that corrects for ambiguity of image reconstruction error loss in textureless regions. Specifically, we interpolate disparity in untextured regions, using the estimated disparity from surrounding textured areas, and use L1 loss to correct the original estimation. Our experiments show that depth estimation is substantially improved on low-texture scenes, without any loss on textured scenes, when compared to Monodepth by Godard et al. Secondly, we show that training with an application's representative rotations, in both pitch and roll, is sufficient to significantly improve performance over the entire range of expected rotation. We demonstrate that depth estimation is successfully generalised as performance is not lost when evaluated on test sets with no camera rotation. Together these developments enable a broader use of self-supervised learning of monocular depth estimation for complex environments.
updated: Fri Jun 25 2021 12:11:18 GMT+0000 (UTC)
published: Thu Jun 24 2021 12:27:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト