Improving Self-Supervised Single View Depth Estimation by Masking Occlusion
  単一のビュー深度推定モデルは、監視信号としてビュー合成を使用する自己監視型のエンドツーエンドのアプローチを使用して、ビデオ映像からトレーニングできます。これは、時間的に隣接するフレームからターゲットビデオフレームを再構築することに基づいた損失で、深度とカメラの動きを予測するフレームワークで実現されます。これに関連して、オクルージョンは、ターゲットフレームでは観察できるが画像再構成に使用するフレームでは観察できないシーンの部分に関連しています。画像の再構成は隣接フレームからのサンプリングに基づいており、定義による閉塞領域はサンプリングできないため、再構成された閉塞領域は監視信号を破損します。前の作業では、arXiv:1806.01260オクルージョンは再構築エラーに基づいて処理されます。各ピクセル位置で、最小のエラーを持つ再構成のみが損失に含まれます。現在の研究の目的は、オクルージョンの影響を受ける領域のみを無視して、トレーニング中に深度推定モデルのパフォーマンスの向上が得られるかどうかを判断することです。この作業では、オクルージョンマスクを紹介します。これは、トレーニング中にオクルージョンのために再構築できない領域を特に無視するために使用できるマスクです。オクルージョンマスクは、予測される深度情報に完全に基づいています。オクルージョンマスクを組み込んだ2つの新しい損失公式を紹介します。 arXiv:1806.01260のメソッドと実装は、変更の基礎としてだけでなく、実験のベースラインとしても機能します。 (i)損失関数にオクルージョンマスクを組み込むことにより、KITTIベンチマークの単一画像深度予測モデルのパフォーマンスが向上することを実証します。 (ii)エラーに基づいて再構成から選択する損失関数は、オブジェクトの動きによって引き起こされる再投影エラーの一部を無視できます。
Single view depth estimation models can be trained from video footage using a self-supervised end-to-end approach with view synthesis as the supervisory signal. This is achieved with a framework that predicts depth and camera motion, with a loss based on reconstructing a target video frame from temporally adjacent frames. In this context, occlusion relates to parts of a scene that can be observed in the target frame but not in a frame used for image reconstruction. Since the image reconstruction is based on sampling from the adjacent frame, and occluded areas by definition cannot be sampled, reconstructed occluded areas corrupt to the supervisory signal. In previous work arXiv:1806.01260 occlusion is handled based on reconstruction error; at each pixel location, only the reconstruction with the lowest error is included in the loss. The current study aims to determine whether performance improvements of depth estimation models can be gained by during training only ignoring those regions that are affected by occlusion. In this work we introduce occlusion mask, a mask that during training can be used to specifically ignore regions that cannot be reconstructed due to occlusions. Occlusion mask is based entirely on predicted depth information. We introduce two novel loss formulations which incorporate the occlusion mask. The method and implementation of arXiv:1806.01260 serves as the foundation for our modifications as well as the baseline in our experiments. We demonstrate that (i) incorporating occlusion mask in the loss function improves the performance of single image depth prediction models on the KITTI benchmark. (ii) loss functions that select from reconstructions based on error are able to ignore some of the reprojection error caused by object motion.
updated: Thu Aug 29 2019 09:13:29 GMT+0000 (UTC)
published: Thu Aug 29 2019 09:13:29 GMT+0000 (UTC)
