arXiv reaDer
モバイル-旧:MobileNetとTransformerのブリッジ
Mobile-Former: Bridging MobileNet and Transformer
MobileNetの並列設計であるMobile-Formerと、間に双方向ブリッジを備えた変圧器を紹介します。この構造は、ローカル処理でのMobileNetの利点と、グローバルな相互作用でのトランスフォーマーの利点を活用します。また、ブリッジにより、ローカル機能とグローバル機能の双方向の融合が可能になります。ビジョントランスフォーマーに関する最近の作業とは異なり、Mobile-Formerのトランスフォーマーには、グローバルな事前情報を学習するためにランダムに初期化されるトークンがほとんど含まれていません(たとえば、6個以下のトークン)。その結果、計算コストが低くなります。提案された軽量のクロスアテンションと組み合わせてブリッジをモデル化することで、Mobile-Formerは計算効率が高いだけでなく、より多くの表現力を備えています。これは、ImageNet分類で2500万から5億のFLOPまでの低FLOPレジームでMobileNetV3を上回ります。たとえば、Mobile-Formerは2億9,400万フロップスで77.9%のトップ1精度を達成し、MobileNetV3より1.3%向上しますが、計算の17%を節約します。オブジェクト検出に移行する場合、Mobile-Formerは、RetinaNetフレームワークでMobileNetV3よりも8.6AP優れています。さらに、DETRのバックボーン、エンコーダー、デコーダーをMobile-Formerに置き換えることで、効率的なエンドツーエンドの検出器を構築します。Mobile-Formerは、DETRより1.1 AP優れていますが、計算コストを52%、パラメーターを36%節約します。
We present Mobile-Former, a parallel design of MobileNet and transformer with a two-way bridge in between. This structure leverages the advantages of MobileNet at local processing and transformer at global interaction. And the bridge enables bidirectional fusion of local and global features. Different from recent works on vision transformer, the transformer in Mobile-Former contains very few tokens (e.g. 6 or fewer tokens) that are randomly initialized to learn global priors, resulting in low computational cost. Combining with the proposed light-weight cross attention to model the bridge, Mobile-Former is not only computationally efficient, but also has more representation power. It outperforms MobileNetV3 at low FLOP regime from 25M to 500M FLOPs on ImageNet classification. For instance, Mobile-Former achieves 77.9% top-1 accuracy at 294M FLOPs, gaining 1.3% over MobileNetV3 but saving 17% of computations. When transferring to object detection, Mobile-Former outperforms MobileNetV3 by 8.6 AP in RetinaNet framework. Furthermore, we build an efficient end-to-end detector by replacing backbone, encoder and decoder in DETR with Mobile-Former, which outperforms DETR by 1.1 AP but saves 52% of computational cost and 36% of parameters.
updated: Thu Dec 09 2021 18:59:45 GMT+0000 (UTC)
published: Thu Aug 12 2021 17:59:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト