arXiv reaDer
RA-Depth:解像度適応型自己教師あり単眼深度推定
RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation
既存の自己監視単眼深度推定方法は、高価な注釈を取り除き、有望な結果を達成することができます。ただし、これらの方法では、固定解像度でトレーニングされたモデルを直接採用して他の異なる解像度で評価すると、パフォーマンスが大幅に低下します。本論文では、シーン深度のスケール不変性を学習することにより、解像度適応型自己教師あり単眼深度推定法(RA-Depth)を提案した。具体的には、同じシーンに対して任意のスケールの画像を生成するための、シンプルでありながら効率的なデータ拡張方法を提案します。次に、密な相互作用を備えたマルチパスエンコーダーとデコーダーを使用してマルチスケール機能を集約し、正確な深度推論を行うデュアル高解像度ネットワークを開発します。最後に、シーンの深さのスケール不変性を明示的に学習するために、さまざまなスケールの深さ予測でスケール間の深さの一貫性の損失を定式化します。 KITTI、Make3D、およびNYU-V2データセットでの広範な実験は、RA-Depthが最先端のパフォーマンスを達成するだけでなく、解像度適応の優れた能力も示すことを示しています。
Existing self-supervised monocular depth estimation methods can get rid of expensive annotations and achieve promising results. However, these methods suffer from severe performance degradation when directly adopting a model trained on a fixed resolution to evaluate at other different resolutions. In this paper, we propose a resolution adaptive self-supervised monocular depth estimation method (RA-Depth) by learning the scale invariance of the scene depth. Specifically, we propose a simple yet efficient data augmentation method to generate images with arbitrary scales for the same scene. Then, we develop a dual high-resolution network that uses the multi-path encoder and decoder with dense interactions to aggregate multi-scale features for accurate depth inference. Finally, to explicitly learn the scale invariance of the scene depth, we formulate a cross-scale depth consistency loss on depth predictions with different scales. Extensive experiments on the KITTI, Make3D and NYU-V2 datasets demonstrate that RA-Depth not only achieves state-of-the-art performance, but also exhibits a good ability of resolution adaptation.
updated: Mon Jul 25 2022 08:49:59 GMT+0000 (UTC)
published: Mon Jul 25 2022 08:49:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト