arXiv reaDer
FoveaTer: 画像分類のための Foveated Transformer
FoveaTer: Foveated Transformer for Image Classification
多くの動物と人間は、さまざまな空間解像度 (中心窩視覚) で視野を処理し、周辺処理を使用して眼球運動を行い、中心窩を指して、関心のあるオブジェクトに関する高解像度の情報を取得します。このアーキテクチャにより、計算効率の高い迅速なシーン探索が可能になります。従来の畳み込みに依存したコンピューター ビジョン システムに代わる、自己注意ベースのビジョン トランスフォーマーの最近の進歩。ただし、Transformer モデルは、視覚系の中心窩特性も、眼球運動と分類タスク間の相互作用も明示的にモデル化していません。プーリング領域と眼球運動を使用して、Vision Transformer アーキテクチャを使用してオブジェクト分類タスクを実行する Foveated Transformer (FoveaTer) モデルを提案します。正方形のプーリング領域または生物学に着想を得たラジアル-ポーラー プーリング領域を使用して、提案されたモデルは畳み込みバックボーンから画像の特徴をプールし、プールされた特徴をトランスフォーマー レイヤーへの入力として使用します。トランスフォーマーが過去と現在の凝視からさまざまな場所に割り当てた注意に基づいて、その後の凝視場所を決定します。最終的な画像カテゴリの決定を行う前に、より困難な画像により多くの注視/計算リソースを動的に割り当てます。 5 つのアブレーション研究を使用して、中心窩モデルのさまざまなコンポーネントの寄与を評価します。心理物理シーンの分類タスクを実行し、実験データを使用して、適切なラジアル ポーラー プーリング領域の組み合わせを見つけます。また、フォービエイテッド モデルは、ベースライン モデルよりもシーン分類タスクにおける人間の決定をよりよく説明することも示しています。両方のタイプのプーリング領域を使用して、PGD の敵対的攻撃に対するモデルの堅牢性を実証します。ここでは、中心モデルがベースライン モデルよりも優れていることがわかります。
Many animals and humans process the visual field with a varying spatial resolution (foveated vision) and use peripheral processing to make eye movements and point the fovea to acquire high-resolution information about objects of interest. This architecture results in computationally efficient rapid scene exploration. Recent progress in self-attention-based Vision Transformers, an alternative to the traditionally convolution-reliant computer vision systems. However, the Transformer models do not explicitly model the foveated properties of the visual system nor the interaction between eye movements and the classification task. We propose Foveated Transformer (FoveaTer) model, which uses pooling regions and eye movements to perform object classification tasks using a Vision Transformer architecture. Using square pooling regions or biologically-inspired radial-polar pooling regions, our proposed model pools the image features from the convolution backbone and uses the pooled features as an input to transformer layers. It decides on subsequent fixation location based on the attention assigned by the Transformer to various locations from past and present fixations. It dynamically allocates more fixation/computational resources to more challenging images before making the final image category decision. Using five ablation studies, we evaluate the contribution of different components of the Foveated model. We perform a psychophysics scene categorization task and use the experimental data to find a suitable radial-polar pooling region combination. We also show that the Foveated model better explains the human decisions in a scene categorization task than a Baseline model. We demonstrate our model's robustness against PGD adversarial attacks with both types of pooling regions, where we see the Foveated model outperform the Baseline model.
updated: Sun Oct 02 2022 19:59:49 GMT+0000 (UTC)
published: Sat May 29 2021 01:54:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト