arXiv reaDer
教師なし単眼奥行き知覚:動く物体に焦点を合わせる
Unsupervised Monocular Depth Perception: Focusing on Moving Objects
柔軟なパッシブ3Dセンシング手段として、単眼ビデオからの教師なし学習が重要な研究トピックになりつつあります。これは、グラウンドトゥルースとの差ではなく、ターゲットビューと隣接するソースビューからの合成ビューとの間の測光誤差を損失として利用します。最近大きな進歩があったにもかかわらず、現実世界のシーンでのオクルージョンとシーンのダイナミクスは、依然として学習に悪影響を及ぼします。この論文では、測光誤差を意図的に操作することで、これらの問題に効率的に対処できることを示します。最初に、遮蔽されたピクセルまたは動的なピクセルを測光エラーマップの統計的外れ値と見なす外れ値マスキング手法を提案します。外れ値マスキングを使用すると、ネットワークはカメラと反対方向に移動するオブジェクトの深さをより正確に学習します。私たちの知る限り、このようなケースは、自動運転などのアプリケーションで高いリスクをもたらすものの、これまでの作業では真剣に検討されていませんでした。また、予測された深度マップのアーティファクトを減らすために、効率的な加重マルチスケールスキームを提案します。 KITTIデータセットでの広範な実験と、Cityscapesデータセットでの追加の実験により、深度または自我運動の推定に対する提案されたアプローチの有効性が検証されました。さらに、初めて、教師ありと教師なしの両方の方法で、動的オブジェクトと静的背景の領域の予測深度を個別に評価します。この評価は、提案された技術的アプローチの有効性をさらに検証し、この方向での将来の研究を刺激する可能性のあるいくつかの興味深い観察結果を提供します。
As a flexible passive 3D sensing means, unsupervised learning of depth from monocular videos is becoming an important research topic. It utilizes the photometric errors between the target view and the synthesized views from its adjacent source views as the loss instead of the difference from the ground truth. Occlusion and scene dynamics in real-world scenes still adversely affect the learning, despite significant progress made recently. In this paper, we show that deliberately manipulating photometric errors can efficiently deal with these difficulties better. We first propose an outlier masking technique that considers the occluded or dynamic pixels as statistical outliers in the photometric error map. With the outlier masking, the network learns the depth of objects that move in the opposite direction to the camera more accurately. To the best of our knowledge, such cases have not been seriously considered in the previous works, even though they pose a high risk in applications like autonomous driving. We also propose an efficient weighted multi-scale scheme to reduce the artifacts in the predicted depth maps. Extensive experiments on the KITTI dataset and additional experiments on the Cityscapes dataset have verified the proposed approach's effectiveness on depth or ego-motion estimation. Furthermore, for the first time, we evaluate the predicted depth on the regions of dynamic objects and static background separately for both supervised and unsupervised methods. The evaluation further verifies the effectiveness of our proposed technical approach and provides some interesting observations that might inspire future research in this direction.
updated: Mon Aug 30 2021 08:45:02 GMT+0000 (UTC)
published: Mon Aug 30 2021 08:45:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト