教師なし深度学習では、ターゲットビューとその隣接フレームから合成されたビューの外観の違いを監視信号として使用します。監視信号は画像自体からのみ送信されるため、トレーニングデータの解像度はパフォーマンスに大きく影響します。高解像度画像には、より詳細な詳細が含まれ、より正確な監視信号を提供します。ただし、メモリと計算能力の制限により、元の画像は通常、トレーニング中にダウンサンプリングされるため、詳細と視差の精度が大幅に低下します。高解像度データに含まれる情報を完全に探索するために、入力として高解像度画像を直接取得し、高解像度および高精度の深度マップを効率的に生成できる、シンプルで効果的なデュアルネットワークアーキテクチャを提案します。また、低テクスチャ領域を処理するための自己組織化アテンション(SAアテンション)モジュールを提案します。ベンチマークKITTIおよびMake3Dデータセットの評価は、本手法が単眼深度推定タスクで最先端の結果を達成することを示しています。
Unsupervised depth learning takes the appearance difference between a target view and a view synthesized from its adjacent frame as supervisory signal. Since the supervisory signal only comes from images themselves, the resolution of training data significantly impacts the performance. High-resolution images contain more fine-grained details and provide more accurate supervisory signal. However, due to the limitation of memory and computation power, the original images are typically down-sampled during training, which suffers heavy loss of details and disparity accuracy. In order to fully explore the information contained in high-resolution data, we propose a simple yet effective dual networks architecture, which can directly take high-resolution images as input and generate high-resolution and high-accuracy depth map efficiently. We also propose a Self-assembled Attention (SA-Attention) module to handle low-texture region. The evaluation on the benchmark KITTI and Make3D datasets demonstrates that our method achieves state-of-the-art results in the monocular depth estimation task.