The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth
自己監視単眼深度推定ネットワークは、トレーニング中の監視信号として近くのフレームを使用してシーン深度を予測するようにトレーニングされます。ただし、多くのアプリケーションでは、ビデオフレーム形式のシーケンス情報もテスト時に利用できます。単眼ネットワークの大部分はこの余分な信号を利用しないため、予測される深度を改善するために使用できる貴重な情報を無視します。そうするものは、計算コストの高いテスト時間の詳細化手法または既成のリカレントネットワークのいずれかを使用します。これらは、本質的に利用可能な幾何学的情報を間接的にのみ利用します。利用可能な場合、テスト時にシーケンス情報を利用できる高密度深度推定への適応アプローチであるManyDepthを提案します。マルチビューステレオからインスピレーションを得て、自己監視のみを使用してトレーニングされた、エンドツーエンドのコストボリュームベースの深いアプローチを提案します。移動物体の場合など、信頼できないと見なされた場合にネットワークがコスト量を無視するように促す新しい一貫性の損失と、静的カメラに対処するための拡張スキームを紹介します。 KITTIとCityscapesの両方での詳細な実験は、テスト時に単一または複数のフレームを使用するものを含め、公開されているすべての自己監視ベースラインを上回っていることを示しています。
Self-supervised monocular depth estimation networks are trained to predict scene depth using nearby frames as a supervision signal during training. However, for many applications, sequence information in the form of video frames is also available at test time. The vast majority of monocular networks do not make use of this extra signal, thus ignoring valuable information that could be used to improve the predicted depth. Those that do, either use computationally expensive test-time refinement techniques or off-the-shelf recurrent networks, which only indirectly make use of the geometric information that is inherently available. We propose ManyDepth, an adaptive approach to dense depth estimation that can make use of sequence information at test time, when it is available. Taking inspiration from multi-view stereo, we propose a deep end-to-end cost volume based approach that is trained using self-supervision only. We present a novel consistency loss that encourages the network to ignore the cost volume when it is deemed unreliable, e.g. in the case of moving objects, and an augmentation scheme to cope with static cameras. Our detailed experiments on both KITTI and Cityscapes show that we outperform all published self-supervised baselines, including those that use single or multiple frames at test time.
updated: Wed Jul 14 2021 10:08:51 GMT+0000 (UTC)
published: Thu Apr 29 2021 17:53:42 GMT+0000 (UTC)
