arXiv reaDer
線形コンテキスト変換ブロック
Linear Context Transform Block
 Squeeze-and-Excitation(SE)ブロックは、チャネル間の依存関係を明示的にキャプチャすることにより、グローバルコンテキストをモデリングするためのチャネルアテンションメカニズムを提供します。ただし、SEブロックがどのように機能するかについてはまだ理解できていません。この作業では、まずSEブロックを再検討してから、グローバルコンテキストとアテンション分布の間の関係の詳細な実証的研究を提示し、それに基づいて、線形コンテキスト変換(LCT)ブロックと呼ばれるシンプルで効果的なモジュールを提案します。すべてのチャネルを異なるグループに分割し、各チャネルグループ内でグローバルに集約されたコンテキスト機能を正規化し、無関係なチャネルからの妨害を減らします。正規化されたコンテキスト機能の線形変換により、各チャネルのグローバルコンテキストを個別にモデル化します。 LCTブロックは非常に軽量であり、さまざまなバックボーンモデルに簡単にプラグインできますが、パラメーターと計算負荷はごくわずかです。広範な実験により、LCNブロックは、ImageNetでの画像分類タスクや、異なるバックボーンモデルを使用したCOCOデータセットでのオブジェクト検出/セグメンテーションにおいて、SEブロックよりも優れていることが示されています。さらに、LCTは、さまざまな容量の異なるベースラインモデルに関係なく、COCOベンチマークでの1.5〜1.7%AP ^ bboxおよび1.0〜1.2%AP ^ maskの改善など、既存の最先端の検出アーキテクチャに対して一貫したパフォーマンスの向上をもたらします。 。シンプルで効果的なアプローチが、注意に基づくモデルの将来の研究に光を当てることを願っています。
Squeeze-and-Excitation (SE) block presents a channel attention mechanism for modeling global context via explicitly capturing dependencies across channels. However, we are still far from understanding how the SE block works. In this work, we first revisit the SE block, and then present a detailed empirical study of the relationship between global context and attention distribution, based on which we propose a simple yet effective module, called Linear Context Transform (LCT) block. We divide all channels into different groups and normalize the globally aggregated context features within each channel group, reducing the disturbance from irrelevant channels. Through linear transform of the normalized context features, we model global context for each channel independently. The LCT block is extremely lightweight and easy to be plugged into different backbone models while with negligible parameters and computational burden increase. Extensive experiments show that the LCT block outperforms the SE block in image classification task on the ImageNet and object detection/segmentation on the COCO dataset with different backbone models. Moreover, LCT yields consistent performance gains over existing state-of-the-art detection architectures, e.g., 1.5∼1.7% AP^bbox and 1.0∼1.2% AP^mask improvements on the COCO benchmark, irrespective of different baseline models of varied capacities. We hope our simple yet effective approach will shed some light on future research of attention-based models.
updated: Sat Nov 23 2019 10:57:33 GMT+0000 (UTC)
published: Fri Sep 06 2019 12:31:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト