arXiv reaDer
DFTR:顕著な物体検出のための深度監視ありFusion Transformer
DFTR: Depth-supervised Fusion Transformer for Salient Object Detection
自動顕著な物体検出(SOD)は、多くのコンピュータービジョンアプリケーションでますます重要な役割を果たしています。深度情報を入力ではなく監視として再定式化することにより、深度教師あり畳み込みニューラルネットワーク(CNN)は、RGBとRGB-D SODシナリオの両方で有望な結果を達成し、推論で追加の深度ネットワークと深度入力を必要としないというメリットがあります。ステージ。このホワイトペーパーでは、初めて、Transformerアーキテクチャへの深度監視の適用範囲を拡大しようとしています。具体的には、RGBとRGB-D SODの両方の精度をさらに向上させるために、深度監視ありFusion TRansformer(DFTR)を開発します。提案されたDFTRには、次の3つの主要な機能が含まれます。1)DFTRは、私たちの知る限り、深度監視ありSODの最初の純粋なTransformerベースのモデルです。 2)マルチスケール機能集約(MFA)モジュールは、SwinTransformerによってエンコードされたマルチスケール機能を粗い方法から細かい方法で完全に活用するために提案されています。 3)機能のさまざまなストリーム間で双方向の情報フローを可能にするために、新しい多段階機能融合(MFF)モジュールが、さまざまなネットワーク学習段階の顕著な領域に重点を置いて、DFTRにさらに統合されています。提案されたDFTRを10のベンチマークデータセットで広範囲に評価します。実験結果は、当社のDFTRが、RGBおよびRGB-DSODタスクの両方で既存の最先端の方法を一貫して上回っていることを示しています。コードとモデルは公開されます。
Automated salient object detection (SOD) plays an increasingly crucial role in many computer vision applications. By reformulating the depth information as supervision rather than as input, depth-supervised convolutional neural networks (CNN) have achieved promising results on both RGB and RGB-D SOD scenarios with the merits of no requirements for extra depth networks and depth inputs in the inference stage. This paper, for the first time, seeks to expand the applicability of depth supervision to the Transformer architecture. Specifically, we develop a Depth-supervised Fusion TRansformer (DFTR), to further improve the accuracy of both RGB and RGB-D SOD. The proposed DFTR involves three primary features: 1) DFTR, to the best of our knowledge, is the first pure Transformer-based model for depth-supervised SOD; 2) A multi-scale feature aggregation (MFA) module is proposed to fully exploit the multi-scale features encoded by the Swin Transformer in a coarse-to-fine manner; 3) To enable bidirectional information flow across different streams of features, a novel multi-stage feature fusion (MFF) module is further integrated into our DFTR with the emphasis on salient regions at different network learning stages. We extensively evaluate the proposed DFTR on ten benchmarking datasets. Experimental results show that our DFTR consistently outperforms the existing state-of-the-art methods for both RGB and RGB-D SOD tasks. The code and model will be made publicly available.
updated: Mon Apr 11 2022 09:38:49 GMT+0000 (UTC)
published: Sat Mar 12 2022 12:59:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト