arXiv reaDer
視覚的自己注意のためのテンソル変換の合成
Synthesizing Tensor Transformations for Visual Self-attention
自己注意は、画像分類や画像キャプションなどの視覚タスクのパフォーマンスを向上させながら、長距離の関係をキャプチャする優れた能力を示しています。ただし、自己注意モジュールは、内積の乗算とクエリキー値機能間の次元の整列に大きく依存しているため、次の2つの問題が発生します。(1)内積の乗算により、計算が徹底的かつ冗長になります。 (2)視覚的特徴マップは多次元テンソルとして表示されることが多いため、次元の位置合わせに適応するようにテンソル特徴のスケールを再形成すると、テンソル特徴マップの内部構造が破壊される可能性があります。これらの問題に対処するために、この論文では、画像テンソルの特徴を直接処理するための、その変形、すなわち、合成テンソル変換(STT)を備えた自己注意プラグインモジュールを提案します。クエリキー値間の内積乗算を計算せずに、基本的なSTTは、視覚情報から合成注意の重みを学習するテンソル変換で構成されます。 STTシリーズの有効性は、画像分類と画像キャプションで検証されます。実験は、提案されたSTTが、視覚上のタスクに基づく自己注意と比較して、堅牢性を維持しながら競争力のあるパフォーマンスを達成することを示しています。
Self-attention shows outstanding competence in capturing long-range relationships while enhancing performance on vision tasks, such as image classification and image captioning. However, the self-attention module highly relies on the dot product multiplication and dimension alignment among query-key-value features, which cause two problems: (1) The dot product multiplication results in exhaustive and redundant computation. (2) Due to the visual feature map often appearing as a multi-dimensional tensor, reshaping the scale of the tensor feature to adapt to the dimension alignment might destroy the internal structure of the tensor feature map. To address these problems, this paper proposes a self-attention plug-in module with its variants, namely, Synthesizing Tensor Transformations (STT), for directly processing image tensor features. Without computing the dot-product multiplication among query-key-value, the basic STT is composed of the tensor transformation to learn the synthetic attention weight from visual information. The effectiveness of STT series is validated on the image classification and image caption. Experiments show that the proposed STT achieves competitive performance while keeping robustness compared to self-attention based above vision tasks.
updated: Wed Jan 05 2022 02:07:32 GMT+0000 (UTC)
published: Wed Jan 05 2022 02:07:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト