arXiv reaDer
ライトリニアトランスフォーマーを備えたコンテンツ拡張機能ピラミッドネットワーク
Content-Augmented Feature Pyramid Network with Light Linear Transformers
最近、多くの研究がトランスフォーマーをコンピュータービジョンタスクに導入しようと試み、良い結果をもたらしました。ローカル受容野内の特徴を抽出する従来の畳み込みネットワークとは異なり、トランスフォーマーは、自己注意メカニズムを使用して、グローバルビューから同様の特徴を適応的に集約できます。オブジェクト検出の場合、Feature Pyramid Network(FPN)は、レイヤー間の機能の相互作用を提案し、その非常に重要性を証明します。ただし、その相互作用は依然としてローカルな方法であり、改善の余地がたくさんあります。トランスフォーマーは元々NLPタスク用に設計されていたため、処理対象をテキストから画像に直接適応させると、手ごろな価格の計算とスペースのオーバーヘッドが発生します。この論文では、線形化された注意機能を利用して上記の問題を克服し、コンテンツ拡張機能ピラミッドネットワーク(CA-FPN)という名前の新しいアーキテクチャを構築します。これは、グローバルコンテンツ抽出モジュールを提案し、軽い線形トランスを介してFPNと深く結合します。さらに、光トランスは、マルチヘッドアテンションメカニズムの適用をさらに容易にすることができます。最も重要なことは、CA-FPNを既存のFPNベースのモデルに簡単に接続できることです。やりがいのあるCOCOオブジェクト検出データセットに関する広範な実験により、CA-FPNは、ベルやホイッスルなしで競合ベースラインを大幅に上回っていることが実証されました。コードは公開されます。
Recently, plenty of work has tried to introduce transformers into computer vision tasks, with good results. Unlike classic convolution networks, which extract features within a local receptive field, transformers can adaptively aggregate similar features from a global view using self-attention mechanism. For object detection, Feature Pyramid Network (FPN) proposes feature interaction across layers and proves its extremely importance. However, its interaction is still in a local manner, which leaves a lot of room for improvement. Since transformer was originally designed for NLP tasks, adapting processing subject directly from text to image will cause unaffordable computation and space overhead. In this paper, we utilize a linearized attention function to overcome above problems and build a novel architecture, named Content-Augmented Feature Pyramid Network (CA-FPN), which proposes a global content extraction module and deeply combines with FPN through light linear transformers. What's more, light transformers can further make the application of multi-head attention mechanism easier. Most importantly, our CA-FPN can be readily plugged into existing FPN-based models. Extensive experiments on the challenging COCO object detection dataset demonstrated that our CA-FPN significantly outperforms competitive baselines without bells and whistles. Code will be made publicly available.
updated: Thu May 20 2021 02:31:31 GMT+0000 (UTC)
published: Thu May 20 2021 02:31:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト