MSFNet:Multi-scale features network for monocular depth estimation
近年、周囲の3D環境を理解するために単眼深度推定が適用され、大きな進歩を遂げています。ただし、単一の画像から直接深度情報を取得する方法には、不適切な問題があります。ディープラーニングの急速な発展により、この問題は解決することが可能です。ますます多くのアプローチが次々と提案されていますが、既存の方法のほとんどは、RGB空間から深度空間にマッピングする際の継続的なダウンサンプリングのために必然的に詳細を失いました。最後に、Enhanced Diverse Attention(EDA)モジュールとUpsample-Stage Fusion(USF)モジュールで構成されるMulti-scale Features Network(MSFNet)を設計します。 EDAモジュールは、空間注意法を使用して重要な空間情報を学習しますが、USFモジュールは、マルチスケール機能融合の観点から、低レベルの詳細情報を高レベルのセマンティック情報で補完して、予測される効果を向上させます。さらに、単純なサンプルは常に最初により良い効果が得られるようにトレーニングされるため、硬いサンプルは収束するのが困難です。したがって、バッチ内のより硬いサンプルに大きな損失係数を割り当てるようにバッチ損失を設計します。 NYU-Depth V2データセットとKITTIデータセットでの実験は、提案されたアプローチが定性的評価と定量的評価の両方で最先端の方法とより競争力があることを示しています。
In recent years, monocular depth estimation is applied to understand the surrounding 3D environment and has made great progress. However, there is an ill-posed problem on how to gain depth information directly from a single image. With the rapid development of deep learning, this problem is possible to be solved. Although more and more approaches are proposed one after another, most of existing methods inevitably lost details due to continuous downsampling when mapping from RGB space to depth space. To the end, we design a Multi-scale Features Network (MSFNet), which consists of Enhanced Diverse Attention (EDA) module and Upsample-Stage Fusion (USF) module. The EDA module employs the spatial attention method to learn significant spatial information, while USF module complements low-level detail information with high-level semantic information from the perspective of multi-scale feature fusion to improve the predicted effect. In addition, since the simple samples are always trained to a better effect first, the hard samples are difficult to converge. Therefore, we design a batch-loss to assign large loss factors to the harder samples in a batch. Experiments on NYU-Depth V2 dataset and KITTI dataset demonstrate that our proposed approach is more competitive with the state-of-the-art methods in both qualitative and quantitative evaluation.
updated: Wed Jul 14 2021 01:38:29 GMT+0000 (UTC)
published: Wed Jul 14 2021 01:38:29 GMT+0000 (UTC)
