arXiv reaDer
NomMer:視覚認識のためのVisionTransformerの相乗的コンテキストを指定する
NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition
最近、事実上の要素として自己注意(SA)を備えたVision Transformers(ViT)が、コンピュータービジョンコミュニティで大きな可能性を示しています。効率とパフォーマンスのトレードオフのために、一連の作業はローカルパッチ内でSA操作を実行するだけですが、グローバルなコンテキスト情報は破棄されます。これは視覚認識タスクに不可欠です。この問題を解決するために、後続のグローバルローカルViTは、モデル内でローカルSAとグローバルSAを並行して、または別の方法で結合することに挑戦します。それにもかかわらず、徹底的に組み合わされたローカルコンテキストとグローバルコンテキストは、さまざまな視覚データの冗長性が存在する可能性があり、各レイヤー内の受容野は固定されています。あるいは、より優雅な方法は、グローバルコンテキストとローカルコンテキスト自体が、さまざまな視覚データに対応するために適応的に貢献できることです。この目標を達成するために、このペーパーでは、NomMerと呼ばれる新しいViTアーキテクチャを提案します。これは、ビジョントランスフォーマーの相乗的なグローバルローカルコンテキストを動的に指定できます。提案されたNomMerの動作パターンを調査することにより、どのコンテキスト情報に焦点が当てられているかをさらに調査します。 NomMerは、ベルやホイッスルのないこの「動的指名」メカニズムの恩恵を受けて、わずか73MのパラメーターでImageNetで84.5%のトップ1分類精度を達成できるだけでなく、高密度の予測タスク、つまりオブジェクト検出とセマンティックで有望なパフォーマンスを示します。セグメンテーション。コードとモデルは、〜\ url {https://github.com/NomMer1125/NomMerで公開されます。
Recently, Vision Transformers (ViT), with the self-attention (SA) as the de facto ingredients, have demonstrated great potential in the computer vision community. For the sake of trade-off between efficiency and performance, a group of works merely perform SA operation within local patches, whereas the global contextual information is abandoned, which would be indispensable for visual recognition tasks. To solve the issue, the subsequent global-local ViTs take a stab at marrying local SA with global one in parallel or alternative way in the model. Nevertheless, the exhaustively combined local and global context may exist redundancy for various visual data, and the receptive field within each layer is fixed. Alternatively, a more graceful way is that global and local context can adaptively contribute per se to accommodate different visual data. To achieve this goal, we in this paper propose a novel ViT architecture, termed NomMer, which can dynamically Nominate the synergistic global-local context in vision transforMer. By investigating the working pattern of our proposed NomMer, we further explore what context information is focused. Beneficial from this "dynamic nomination" mechanism, without bells and whistles, the NomMer can not only achieve 84.5% Top-1 classification accuracy on ImageNet with only 73M parameters, but also show promising performance on dense prediction tasks, i.e., object detection and semantic segmentation. The code and models will be made publicly available at~\url{https://github.com/NomMer1125/NomMer.
updated: Thu Nov 25 2021 10:07:54 GMT+0000 (UTC)
published: Thu Nov 25 2021 10:07:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト