arXiv reaDer
単眼深度推定のための双方向注意ネットワーク
Bidirectional Attention Network for Monocular Depth Estimation
この論文では、畳み込みニューラルネットワークにローカル情報とグローバル情報を効果的に統合する際の制限に対処する単眼深度推定(MDE)のエンドツーエンドフレームワークである双方向注意ネットワーク(BANet)を提案します。このメカニズムの構造は、ニューラル機械翻訳の強力な概念的基盤に由来し、リカレントニューラルネットワークの動的な性質と同様の計算の適応制御のための軽量メカニズムを提供します。フィードフォワード特徴マップを利用し、グローバルコンテキストを組み込んであいまいさを排除する双方向アテンションモジュールを紹介します。広範な実験により、フィードフォワードベースラインおよび2つの困難なデータセット(KITTIとDIODE)での単眼深度推定のための他の最先端の方法に対するこの双方向注意モデルの高度な機能が明らかになりました。提案されたアプローチは、メモリと計算の複雑さが少ない最先端の単眼深度推定方法よりも優れているか、少なくとも同等に機能することを示します。
In this paper, we propose a Bidirectional Attention Network (BANet), an end-to-end framework for monocular depth estimation (MDE) that addresses the limitation of effectively integrating local and global information in convolutional neural networks. The structure of this mechanism derives from a strong conceptual foundation of neural machine translation, and presents a light-weight mechanism for adaptive control of computation similar to the dynamic nature of recurrent neural networks. We introduce bidirectional attention modules that utilize the feed-forward feature maps and incorporate the global context to filter out ambiguity. Extensive experiments reveal the high degree of capability of this bidirectional attention model over feed-forward baselines and other state-of-the-art methods for monocular depth estimation on two challenging datasets -- KITTI and DIODE. We show that our proposed approach either outperforms or performs at least on a par with the state-of-the-art monocular depth estimation methods with less memory and computational complexity.
updated: Thu Mar 25 2021 18:43:01 GMT+0000 (UTC)
published: Tue Sep 01 2020 23:14:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト