arXiv reaDer
TDAF:ビジョンタスクのためのトップダウン注意フレームワーク
TDAF: Top-Down Attention Framework for Vision Tasks
人間の注意メカニズムはトップダウン方式で機能することがよくありますが、視覚研究では十分に検討されていません。ここでは、トップダウンの注意を取り込むためのトップダウン注意フレームワーク(TDAF)を提案します。これは、ほとんどの既存のモデルで簡単に採用できます。その中で設計された再帰的二重方向ネスト構造は、再帰的パスと構造的パスの2セットの直交パスを形成し、ボトムアップの空間的特徴とトップダウンの注意の特徴がそれぞれ抽出されます。このような空間機能と注意機能は深くネストされているため、提案されたフレームワークはトップダウンとボトムアップの混合方式で機能します。経験的証拠は、私たちのTDAFが効果的な層別注意情報を取得し、パフォーマンスを向上させることができることを示しています。 TDAFを使用したResNetは、ImageNetで2.0%の改善を実現します。オブジェクト検出の場合、パフォーマンスはFCOSよりも2.7%AP向上します。ポーズ推定の場合、TDAFはベースラインを1.6%改善します。また、行動認識については、TDAFを採用した3D-ResNetにより1.7%の精度向上を実現しています。
Human attention mechanisms often work in a top-down manner, yet it is not well explored in vision research. Here, we propose the Top-Down Attention Framework (TDAF) to capture top-down attentions, which can be easily adopted in most existing models. The designed Recursive Dual-Directional Nested Structure in it forms two sets of orthogonal paths, recursive and structural ones, where bottom-up spatial features and top-down attention features are extracted respectively. Such spatial and attention features are nested deeply, therefore, the proposed framework works in a mixed top-down and bottom-up manner. Empirical evidence shows that our TDAF can capture effective stratified attention information and boost performance. ResNet with TDAF achieves 2.0% improvements on ImageNet. For object detection, the performance is improved by 2.7% AP over FCOS. For pose estimation, TDAF improves the baseline by 1.6%. And for action recognition, the 3D-ResNet adopting TDAF achieves improvements of 1.7% accuracy.
updated: Mon Dec 14 2020 04:19:13 GMT+0000 (UTC)
published: Mon Dec 14 2020 04:19:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト