arXiv reaDer
ビジョン トランスフォーマーにおけるローカルとグローバルの相互作用のための軸方向に拡大されたウィンドウ
Axially Expanded Windows for Local-Global Interaction in Vision Transformers
最近、トランスフォーマーは、さまざまなビジョン タスクで有望なパフォーマンスを示しています。 Transformer の設計における困難な問題は、特に高解像度のビジョン タスクの場合、グローバルな自己注意の計算に非常にコストがかかることです。ローカル自己注意は、その効率を向上させるためにローカル領域内で注意計算を実行します。これにより、単一の注意層の受容野が十分に大きくなく、コンテキスト モデリングが不十分になります。シーンを観察するとき、人間は通常、粗い粒度で非注意領域に注意を向けながら、局所領域に焦点を合わせます。この観察に基づいて、ローカルウィンドウ内で細粒度の自己注意を実行し、水平軸と垂直軸で粗粒度の自己注意を実行する、軸方向に拡張されたウィンドウの自己注意メカニズムを開発します。長期的な視覚的依存。
Recently, Transformers have shown promising performance in various vision tasks. A challenging issue in Transformer design is that global self-attention is very expensive to compute, especially for the high-resolution vision tasks. Local self-attention performs attention computation within a local region to improve its efficiency, which leads to their receptive fields in a single attention layer are not large enough, resulting in insufficient context modeling. When observing a scene, humans usually focus on a local region while attending to non-attentional regions at coarse granularity. Based on this observation, we develop the axially expanded window self-attention mechanism that performs fine-grained self-attention within the local window and coarse-grained self-attention in the horizontal and vertical axes, and thus can effectively capturing both short- and long-range visual dependencies.
updated: Sun Nov 13 2022 02:56:49 GMT+0000 (UTC)
published: Mon Sep 19 2022 02:53:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト