On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation
ステレオおよび単眼画像からのシーン深度推定は、シーン理解などのダウンストリームタスクの3D情報を抽出するために重要です。最近、深さ推定のための学習ベースの方法は、ハードウェアの選択におけるその高いパフォーマンスと柔軟性のために多くの注目を集めています。ただし、これらのアルゴリズムの教師ありトレーニングのためにグラウンドトゥルースデータを収集することは、コストがかかるか、まったく不可能です。この状況は、対応する深度測定を必要としない代替の学習アプローチの必要性を示唆しています。確かに、深度推定の自己教師あり学習は、ますます人気のある代替手段を提供します。これは、シーンの正確な深さがわかっている場合、またはこの場合は推定されている場合、観測されたフレームを隣接するフレームから合成できるという考えに基づいています。一般的な考えに反して、画像合成の改善は深度推定の改善を必要としないことを経験的に示します。むしろ、画像合成を最適化すると、主な予測目的である深度に関してパフォーマンスが異なる可能性があります。この発散現象は、データに起因する偶然性の不確実性に起因すると考えられます。 4つのデータセット(ストリート、屋内、医療にまたがる)と5つのアーキテクチャ(単眼とステレオ)での実験に基づいて、この発散現象はデータセットドメインに依存せず、一般的に使用される正則化手法によって軽減されないと結論付けます。この発見の重要性を強調するために、画像合成を使用する方法の調査を含め、過去6年間で合計127の論文を発表しました。この観察された相違は、これまで詳細に報告または研究されておらず、発見に影響を与える可能性のある自己監視アプローチの将来の改善の余地があることを示唆しています。
Scene depth estimation from stereo and monocular imagery is critical for extracting 3D information for downstream tasks such as scene understanding. Recently, learning-based methods for depth estimation have received much attention due to their high performance and flexibility in hardware choice. However, collecting ground truth data for supervised training of these algorithms is costly or outright impossible. This circumstance suggests a need for alternative learning approaches that do not require corresponding depth measurements. Indeed, self-supervised learning of depth estimation provides an increasingly popular alternative. It is based on the idea that observed frames can be synthesized from neighboring frames if accurate depth of the scene is known - or in this case, estimated. We show empirically that - contrary to common belief - improvements in image synthesis do not necessitate improvement in depth estimation. Rather, optimizing for image synthesis can result in diverging performance with respect to the main prediction objective - depth. We attribute this diverging phenomenon to aleatoric uncertainties, which originate from data. Based on our experiments on four datasets (spanning street, indoor, and medical) and five architectures (monocular and stereo), we conclude that this diverging phenomenon is independent of the dataset domain and not mitigated by commonly used regularization techniques. To underscore the importance of this finding, we include a survey of methods which use image synthesis, totaling 127 papers over the last six years. This observed divergence has not been previously reported or studied in depth, suggesting room for future improvement of self-supervised approaches which might be impacted the finding.
updated: Sun Oct 10 2021 18:34:36 GMT+0000 (UTC)
published: Mon Sep 13 2021 17:57:24 GMT+0000 (UTC)
