arXiv reaDer
FoveaTer: 画像分類用のフォービエイテッド トランスフォーマー
FoveaTer: Foveated Transformer for Image Classification
多くの動物と人間は、さまざまな空間解像度 (中心窩) で視野を処理し、周辺処理を使用して眼球運動を行い、中心窩を向けて、関心のあるオブジェクトに関する高解像度の情報を取得します。このアーキテクチャにより、計算効率の高い迅速なシーン探索が実現します。ビジョンの最近の進歩 トランスフォーマーは、従来の畳み込みに依存したコンピューター ビジョン システムに新しい選択肢をもたらしました。ただし、これらのモデルは、視覚系の中心的な特性や、眼球運動と分類タスク間の相互作用を明示的にモデル化していません。フォービエイテッド トランスフォーマー (FoveaTer) モデルを提案します。これは、プーリング領域とサッケード運動を使用して、ビジョン トランスフォーマー アーキテクチャを使用してオブジェクト分類タスクを実行します。提案されたモデルは、生物学的にヒントを得た中心窩アーキテクチャへの近似である正方形のプーリング領域を使用して画像の特徴をプールし、プールされた特徴をトランスフォーマー ネットワークへの入力として使用します。トランスフォーマーによって以前および現在の凝視からさまざまな位置に割り当てられた注意に基づいて、次の凝視位置が決定されます。モデルは信頼度のしきい値を使用してシーンの探索を停止し、より困難な画像により多くの注視/計算リソースを動的に割り当てることができます。提案されたモデルと非フォービエーテッド モデルを使用してアンサンブル モデルを構築し、非フォービエーテッド モデルよりも 1.36% 低い精度と 22% の計算節約を達成しました。最後に、敵対的攻撃に対するモデルの堅牢性を示します。このモデルは、非フォービエーテッド モデルよりも優れています。
Many animals and humans process the visual field with a varying spatial resolution (foveated vision) and use peripheral processing to make eye movements and point the fovea to acquire high-resolution information about objects of interest. This architecture results in computationally efficient rapid scene exploration. Recent progress in vision Transformers has brought about new alternatives to the traditionally convolution-reliant computer vision systems. However, these models do not explicitly model the foveated properties of the visual system nor the interaction between eye movements and the classification task. We propose foveated Transformer (FoveaTer) model, which uses pooling regions and saccadic movements to perform object classification tasks using a vision Transformer architecture. Our proposed model pools the image features using squared pooling regions, an approximation to the biologically-inspired foveated architecture, and uses the pooled features as an input to a Transformer Network. It decides on the following fixation location based on the attention assigned by the Transformer to various locations from previous and present fixations. The model uses a confidence threshold to stop scene exploration, allowing to dynamically allocate more fixation/computational resources to more challenging images. We construct an ensemble model using our proposed model and unfoveated model, achieving an accuracy 1.36% below the unfoveated model with 22% computational savings. Finally, we demonstrate our model's robustness against adversarial attacks, where it outperforms the unfoveated model.
updated: Sat May 29 2021 01:54:33 GMT+0000 (UTC)
published: Sat May 29 2021 01:54:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト