arXiv reaDer
必要なのは 1 つのスカラーだけです -- 単眼自己監視を使用した絶対深度推定
One scalar is all you need -- absolute depth estimation using monocular self-supervision
自己教師あり単眼深度推定器は、画像のみを使用し、グラウンド トゥルースの深度データを使用せずに、新しいシーンでトレーニングまたは微調整することができ、優れた精度を実現します。ただし、これらの推定量は、深度スケール固有のあいまいさに悩まされ、その適用性が大幅に制限されます。この作業では、グラウンド トゥルース深度で収集された既存のソース データセットから、画像のみで構成される新しく収集されたターゲット データセットで自己教師を使用してトレーニングされた深度推定器に深度スケールを転送する方法を提示し、重大な制限要因を解決します。 .射影幾何学に基づく自己監視により、正解深度と直線的に相関する予測深度が得られることを示します。さらに、この関係の線形性は、2 つの異なる (実際のまたは合成の) ソースとターゲット ドメインからの画像を共同でトレーニングする場合にも当てはまります。この観測されたプロパティを利用し、単一のグローバル スカラーを使用して、ソース ドメインからの画像のグラウンド トゥルースと予測された最大スケール深度との関係をモデル化します。次に、推定されたグローバル スケーリング ファクターを使用してターゲット ドメインから画像の予測されたアップ スケール深度をスケーリングし、2 つのドメイン間で深度スケール転送を実行します。この提案された方法は、ターゲット KITTI および DDAD データセットで評価されましたが、より広い視野、他の画像スタイル、または構造コンテンツを持つ他の実際のまたは合成ソース データセットを使用しました。私たちのアプローチは、特別に調整された vKITTI または vKITTI2 データセットを使用しなくても、KITTI で競争力のある精度を達成し、実際のソース データセットまたは合成ソース データセットの両方を使用する場合、DDAD でより高い精度を達成します。
Self-supervised monocular depth estimators can be trained or fine-tuned on new scenes using only images and no ground-truth depth data, achieving good accuracy. However, these estimators suffer from the inherent ambiguity of the depth scale, significantly limiting their applicability. In this work, we present a method for transferring the depth-scale from existing source datasets collected with ground-truth depths to depth estimators that are trained using self-supervision on a newly collected target dataset consisting of images only, solving a significant limiting factor. We show that self-supervision based on projective geometry results in predicted depths that are linearly correlated with their ground-truth depths. Moreover, the linearity of this relationship also holds when jointly training on images from two different (real or synthetic) source and target domains. We utilize this observed property and model the relationship between the ground-truth and the predicted up-to-scale depths of images from the source domain using a single global scalar. Then, we scale the predicted up-to-scale depths of images from the target domain using the estimated global scaling factor, performing depth-scale transfer between the two domains. This suggested method was evaluated on the target KITTI and DDAD datasets, while using other real or synthetic source datasets, that have a larger field-of-view, other image style or structural content. Our approach achieves competitive accuracy on KITTI, even without using the specially tailored vKITTI or vKITTI2 datasets, and higher accuracy on DDAD, when using both real or synthetic source datasets.
updated: Wed Mar 15 2023 07:07:48 GMT+0000 (UTC)
published: Tue Mar 14 2023 07:07:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト