arXiv reaDer
背景の無視と一般化の改善に向けて:費用のかからないDNN視覚的注意メカニズム
Towards Ignoring Backgrounds and Improving Generalization: a Costless DNN Visual Attention Mechanism
この作品は、画像分類器とそれに対応するディープニューラルネットワーク(DNN)アーキテクチャ(ISNetと呼ばれる)の注意メカニズムを紹介します。トレーニング中、ISNetはセグメンテーションターゲットを使用して、画像の関心領域を見つけ、それに注意を集中する方法を学習します。この提案は、新しい概念、説明ヒートマップの背景関連性の最小化に基づいています。実行時に余分な計算コストをかけることなく、事実上すべての分類ニューラルネットワークアーキテクチャに適用できます。バックグラウンドを無視できるため、結果として得られる単一のDNNは、セグメンターとそれに続く分類子の共通パイプラインを置き換えることができ、より高速で軽量になります。 ISNetを、胸部X線でのCOVID-19と結核の検出、および顔の属性の推定という3つのアプリケーションでテストしました。最初の2つのタスクでは、混合トレーニングデータベースを採用し、ショートカット学習を促進しました。 ISNetは、肺に焦点を合わせ、バックグラウンドのバイアスの原因を無視することで、問題を軽減しました。したがって、生物医学的分類問題における外部(配布外)テストデータセットへの一般化を改善し、標準分類器、マルチタスクDNN(分類とセグメンテーションを実行)、注意ゲートニューラルネットワーク、および標準セグメンテーションを上回りました。 -分類パイプライン。顔属性の推定により、ISNetは顔に正確に焦点を合わせることができ、自然画像にも適用できることが実証されました。 ISNetは、背景を無視し、さまざまなドメインの一般化を改善するための、正確で高速かつ軽量な方法論を提供します。
This work introduces an attention mechanism for image classifiers and the corresponding deep neural network (DNN) architecture, dubbed ISNet. During training, the ISNet uses segmentation targets to learn how to find the image's region of interest and concentrate its attention on it. The proposal is based on a novel concept, background relevance minimization in explanation heatmaps. It can be applied to virtually any classification neural network architecture, without any extra computational cost at run-time. Capable of ignoring the background, the resulting single DNN can substitute the common pipeline of a segmenter followed by a classifier, being faster and lighter. We tested the ISNet with three applications: COVID-19 and tuberculosis detection in chest X-rays, and facial attribute estimation. The first two tasks employed mixed training databases, and fostered shortcut learning. By focusing on lungs and ignoring sources of bias in the background, the ISNet reduced the problem. Thus, it improved generalization to external (out-of-distribution) test datasets in the biomedical classification problems, surpassing a standard classifier, a multi-task DNN (performing classification and segmentation), an attention-gated neural network, and the standard segmentation-classification pipeline. Facial attribute estimation demonstrated that ISNet could precisely focus on faces, being also applicable to natural images. ISNet presents an accurate, fast, and light methodology to ignore backgrounds and improve generalization in diverse domains.
updated: Fri Jul 22 2022 22:44:26 GMT+0000 (UTC)
published: Tue Feb 01 2022 05:58:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト