arXiv reaDer
DwinFormer: エンドツーエンドの単眼深度推定のためのデュアル ウィンドウ トランスフォーマー
DwinFormer: Dual Window Transformers for End-to-End Monocular Depth Estimation
単一の画像から深度を推定することは、コンピューター ビジョンの分野で最も重要であり、多数の用途があります。従来の方法は、局所受容野がその実用性を制限しているため、一貫性ときめ細かな詳細との間のトレードオフに苦しんでいます。この長期的な依存関係の欠如は、本質的に、アーキテクチャの畳み込みニューラル ネットワーク部分に由来します。この論文では、エンドツーエンドの単眼深度推定にローカル機能とグローバル機能の両方を利用するデュアル ウィンドウ トランスフォーマー ベースのネットワーク、つまり DwinFormer が提案されています。 DwinFormer は、それぞれ Dwin-SAT と Dwin-CAT というデュアル ウィンドウ セルフアテンション トランスフォーマーとクロスアテンション トランスフォーマーで構成されています。 Dwin-SAT は、グローバル コンテキストを同時にキャプチャしながら、複雑でローカルに対応した特徴をシームレスに抽出します。ローカルおよびグローバル ウィンドウ アテンションの力を利用して、短距離と長距離の両方の依存関係を適切にキャプチャし、アテンション マスキングやウィンドウ シフトなどの複雑で計算コストの高い操作の必要性を取り除きます。さらに、Dwin-SAT は、並進等分散や大規模データへの依存度の低下など、望ましい特性を提供する帰納的バイアスを導入します。さらに、従来のデコード方法は、多くの場合、エンコーダとデコーダの機能を融合するときにセマンティックの不一致とグローバル コンテキストの欠如をもたらす可能性があるスキップ接続に依存しています。対照的に、Dwin-CAT は、ローカルとグローバルの両方のウィンドウ クロスアテンションを採用して、エンコーダーとデコーダーの機能をきめ細かいローカル情報とコンテキスト認識グローバル情報の両方とシームレスに融合させ、セマンティック ギャップを効果的に修正します。 NYU-Depth-V2 および KITTI データセットでの広範な実験を通じて得られた経験的証拠は、提案された方法の優位性を示しており、屋内環境と屋外環境の両方で既存のアプローチを一貫して上回っています。
Depth estimation from a single image is of paramount importance in the realm of computer vision, with a multitude of applications. Conventional methods suffer from the trade-off between consistency and fine-grained details due to the local-receptive field limiting their practicality. This lack of long-range dependency inherently comes from the convolutional neural network part of the architecture. In this paper, a dual window transformer-based network, namely DwinFormer, is proposed, which utilizes both local and global features for end-to-end monocular depth estimation. The DwinFormer consists of dual window self-attention and cross-attention transformers, Dwin-SAT and Dwin-CAT, respectively. The Dwin-SAT seamlessly extracts intricate, locally aware features while concurrently capturing global context. It harnesses the power of local and global window attention to adeptly capture both short-range and long-range dependencies, obviating the need for complex and computationally expensive operations, such as attention masking or window shifting. Moreover, Dwin-SAT introduces inductive biases which provide desirable properties, such as translational equvariance and less dependence on large-scale data. Furthermore, conventional decoding methods often rely on skip connections which may result in semantic discrepancies and a lack of global context when fusing encoder and decoder features. In contrast, the Dwin-CAT employs both local and global window cross-attention to seamlessly fuse encoder and decoder features with both fine-grained local and contextually aware global information, effectively amending semantic gap. Empirical evidence obtained through extensive experimentation on the NYU-Depth-V2 and KITTI datasets demonstrates the superiority of the proposed method, consistently outperforming existing approaches across both indoor and outdoor environments.
updated: Mon Mar 06 2023 08:53:22 GMT+0000 (UTC)
published: Mon Mar 06 2023 08:53:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト