arXiv reaDer
単眼の自己教師あり深さ推定のためのマルチモーダルスケールの一貫性と認識
Multimodal Scale Consistency and Awareness for Monocular Self-Supervised Depth Estimation
自動運転のシーン理解には、高密度の深度推定が不可欠です。ただし、単眼ビデオに対する最近の自己監視アプローチは、長いシーケンス全体でスケールの不一致に悩まされています。遍在する全地球測位システム(GPS)からのデータを利用して、外観ベースの損失を補完する動的に重み付けされたGPS-to-Scale(g2s)損失を提案することにより、この課題に取り組みます。 GPSは、推論ではなく、マルチモーダルトレーニング中にのみ必要であることを強調します。 GPSを介してキャプチャされたフレーム間の相対距離は、カメラのセットアップやシーンの分布に依存しないスケール信号を提供し、より豊富な学習特徴表現をもたらします。複数のデータセットでの広範な評価を通じて、推論中にスケールに一貫性があり、認識された深度推定を示し、低周波GPSデータでトレーニングする場合でもパフォーマンスを向上させます。
Dense depth estimation is essential to scene-understanding for autonomous driving. However, recent self-supervised approaches on monocular videos suffer from scale-inconsistency across long sequences. Utilizing data from the ubiquitously copresent global positioning systems (GPS), we tackle this challenge by proposing a dynamically-weighted GPS-to-Scale (g2s) loss to complement the appearance-based losses. We emphasize that the GPS is needed only during the multimodal training, and not at inference. The relative distance between frames captured through the GPS provides a scale signal that is independent of the camera setup and scene distribution, resulting in richer learned feature representations. Through extensive evaluation on multiple datasets, we demonstrate scale-consistent and -aware depth estimation during inference, improving the performance even when training with low-frequency GPS data.
updated: Wed Mar 03 2021 15:39:41 GMT+0000 (UTC)
published: Wed Mar 03 2021 15:39:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト