arXiv reaDer
視覚認識のためのデュアルストリーム ネットワーク
Dual-stream Network for Visual Recognition
顕著なグローバル表現能力を備えたトランスフォーマーは、視覚的なタスクでは競争力のある結果を達成しますが、入力画像の高レベルのローカル パターン情報を考慮できません。この論文では、画像分類のためのローカルおよびグローバル パターン フィーチャの表現能力を完全に調査するために、一般的なデュアル ストリーム ネットワーク (DS-Net) を示します。当社のDS-Netは、きめ細かく統合された特徴を同時に計算し、それらを効率的に融合することができます。具体的には、各ブロックで 2 つの異なる解像度を処理する Intra-scale Propagation モジュールと、デュアル スケールでフィーチャ間で情報相互作用を実行する Inter-Scale Alignment モジュールを提案します。さらに、ダウンストリームの高密度予測のためのコンテキスト情報をさらに強化するために、デュアルストリーム FPN (DS-FPN) も設計します。余計なものがなくても、支柱付きの DS-Net は、ImageNet-1k でトップ 1 の精度という点で Deit-Small よりも 2.4% 優れており、他の Vision Transformer や ResNet よりも最先端のパフォーマンスを実現しています。オブジェクト検出とインスタンス セグメンテーションについては、DS-Net-Small は、MSCOCO 2017 の mAP に関してそれぞれ ResNet-50 を 6.4% および 5.5% 上回っており、以前の最先端のスキームを上回っています。ビジョン タスクの一般的なバックボーンになります。コードは近日公開予定です。
Transformers with remarkable global representation capacities achieve competitive results for visual tasks, but fail to consider high-level local pattern information in input images. In this paper, we present a generic Dual-stream Network (DS-Net) to fully explore the representation capacity of local and global pattern features for image classification. Our DS-Net can simultaneously calculate fine-grained and integrated features and efficiently fuse them. Specifically, we propose an Intra-scale Propagation module to process two different resolutions in each block and an Inter-Scale Alignment module to perform information interaction across features at dual scales. Besides, we also design a Dual-stream FPN (DS-FPN) to further enhance contextual information for downstream dense predictions. Without bells and whistles, the propsed DS-Net outperforms Deit-Small by 2.4% in terms of top-1 accuracy on ImageNet-1k and achieves state-of-the-art performance over other Vision Transformers and ResNets. For object detection and instance segmentation, DS-Net-Small respectively outperforms ResNet-50 by 6.4% and 5.5 % in terms of mAP on MSCOCO 2017, and surpasses the previous state-of-the-art scheme, which significantly demonstrates its potential to be a general backbone in vision tasks. The code will be released soon.
updated: Wed Jun 30 2021 14:19:39 GMT+0000 (UTC)
published: Mon May 31 2021 06:56:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト