畳み込みニューラルネットワークは、さまざまなコンピュータービジョンタスクに多大な影響を与えていますが、一般に、畳み込み操作の固有の局所性のために、長距離依存関係を明示的にモデル化する際の制限を示しています。当初は自然言語処理タスク用に設計されたトランスフォーマーは、長距離の依存関係をキャプチャするための固有のグローバルな自己注意メカニズムを備えた代替アーキテクチャとして登場しました。この論文では、畳み込みニューラルネットワークとトランスフォーマーの両方から恩恵を受けるアーキテクチャであるTransDepthを提案します。トランスフォーマーの採用によりネットワークがローカルレベルの詳細をキャプチャする機能を失うことを回避するために、ゲートに基づく注意メカニズムを採用する新しいデコーダーを提案します。特に、これは、連続ラベルを含むピクセル単位の予測問題(つまり、単眼深度予測と表面法線推定)にトランスフォーマーを適用する最初の論文です。広範な実験は、提案されたTransDepthが3つの挑戦的なデータセットで最先端のパフォーマンスを達成することを示しています。コードはhttps://github.com/ygjwd12345/TransDepthで入手できます。
While convolutional neural networks have shown a tremendous impact on various computer vision tasks, they generally demonstrate limitations in explicitly modeling long-range dependencies due to the intrinsic locality of the convolution operation. Initially designed for natural language processing tasks, Transformers have emerged as alternative architectures with innate global self-attention mechanisms to capture long-range dependencies. In this paper, we propose TransDepth, an architecture that benefits from both convolutional neural networks and transformers. To avoid the network losing its ability to capture local-level details due to the adoption of transformers, we propose a novel decoder that employs attention mechanisms based on gates. Notably, this is the first paper that applies transformers to pixel-wise prediction problems involving continuous labels (i.e., monocular depth prediction and surface normal estimation). Extensive experiments demonstrate that the proposed TransDepth achieves state-of-the-art performance on three challenging datasets. Our code is available at: https://github.com/ygjwd12345/TransDepth.