Self-Supervised Monocular Scene Decomposition and Depth Estimation
自己監視単眼深度推定アプローチは、シーン内で独立して移動するオブジェクトを無視するか、それらを識別するために別個のセグメンテーションステップを必要とします。私たちは、MonoDepthSegを提案して、グラウンドトゥルースラベルを使用せずに、単眼ビデオから深度を推定し、移動するオブジェクトをセグメント化します。シーンを固定数のコンポーネントに分解します。各コンポーネントは、画像上の領域に対応し、独自の変換行列がその動きを表します。共有エンコーダーを使用して、マスクと各コンポーネントの動きの両方を効率的に推定します。 3つの運転データセットでメソッドを評価し、シーンを個別に移動するコンポーネントに分解しながら、モデルが深度推定を明らかに改善することを示します。
Self-supervised monocular depth estimation approaches either ignore independently moving objects in the scene or need a separate segmentation step to identify them. We propose MonoDepthSeg to jointly estimate depth and segment moving objects from monocular video without using any ground-truth labels. We decompose the scene into a fixed number of components where each component corresponds to a region on the image with its own transformation matrix representing its motion. We estimate both the mask and the motion of each component efficiently with a shared encoder. We evaluate our method on three driving datasets and show that our model clearly improves depth estimation while decomposing the scene into separately moving components.
updated: Thu Oct 21 2021 17:03:08 GMT+0000 (UTC)
published: Thu Oct 21 2021 17:03:08 GMT+0000 (UTC)
