arXiv reaDer
背景の無視と一般化の改善に向けて: 費用のかからない DNN 視覚的注意メカニズム
Towards Ignoring Backgrounds and Improving Generalization: a Costless DNN Visual Attention Mechanism
この研究では、画像分類器のアテンション メカニズムと、対応するディープ ニューラル ネットワーク (DNN) アーキテクチャ (ISNet と呼ばれる) が導入されています。トレーニング中、ISNet はセグメンテーション ターゲットを使用して、画像の関心領域を見つけ、そこに注意を向ける方法を学習します。この提案は、LRP 説明ヒートマップにおける背景関連性の最小化という新しい概念に基づいています。これは、実行時に追加の計算コストをかけることなく、ほぼすべての分類ニューラル ネットワーク アーキテクチャに適用できます。バックグラウンドを無視できるため、結果として得られる単一の DNN は、セグメンターとその後に続く分類器の共通パイプラインに取って代わることができ、高速かつ軽量になります。胸部 X 線での COVID-19 と結核の検出、および顔の属性推定の 3 つのアプリケーションで ISNet をテストしました。最初の 2 つのタスクは混合トレーニング データベースを採用し、バックグラウンド バイアスと近道学習を助長しました。肺に焦点を当てることで、ISNet は近道学習を減らし、外部 (分布外) テスト データセットへの一般化を改善しました。トレーニング データがバックグラウンド バイアスを示したとき、ISNet のテスト パフォーマンスは、標準の分類子、マルチタスク DNN (分類とセグメンテーションの実行)、アテンション ゲーテッド ニューラル ネットワーク、Guided Attention Inference Networks、および標準のセグメンテーション - 分類パイプラインを大幅に上回りました。顔の属性推定により、ISNet が顔に正確に焦点を合わせることができ、自然画像にも適用できることが実証されました。 ISNet は、特にバックグラウンド バイアスが懸念される場合に、バックグラウンドを無視して一般化を改善するための、正確で高速かつ軽量な方法論を提供します。
This work introduces an attention mechanism for image classifiers and the corresponding deep neural network (DNN) architecture, dubbed ISNet. During training, the ISNet uses segmentation targets to learn how to find the image's region of interest and concentrate its attention on it. The proposal is based on a novel concept, background relevance minimization in LRP explanation heatmaps. It can be applied to virtually any classification neural network architecture, without any extra computational cost at run-time. Capable of ignoring the background, the resulting single DNN can substitute the common pipeline of a segmenter followed by a classifier, being faster and lighter. We tested the ISNet with three applications: COVID-19 and tuberculosis detection in chest X-rays, and facial attribute estimation. The first two tasks employed mixed training databases, which fostered background bias and shortcut learning. By focusing on lungs, the ISNet reduced shortcut learning, improving generalization to external (out-of-distribution) test datasets. When training data presented background bias, the ISNet's test performance significantly surpassed standard classifiers, multi-task DNNs (performing classification and segmentation), attention-gated neural networks, Guided Attention Inference Networks, and the standard segmentation-classification pipeline. Facial attribute estimation demonstrated that ISNet could precisely focus on faces, being also applicable to natural images. ISNet presents an accurate, fast, and light methodology to ignore backgrounds and improve generalization, especially when background bias is a concern.
updated: Wed Feb 08 2023 21:41:56 GMT+0000 (UTC)
published: Tue Feb 01 2022 05:58:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト