arXiv reaDer
視覚的顕著性によるViTショートカット学習の修正
Rectify ViT Shortcut Learning by Visual Saliency
ショートカット学習は一般的ですが、深層学習モデルには有害であり、特徴表現が縮退し、その結果、モデルの一般化可能性と解釈可能性が危険にさらされます。ただし、広く使用されているVisionTransformerフレームワークでのショートカット学習はほとんど知られていません。一方、ドメイン固有の知識を導入することは、背景に関連する要因によって支配されるショートカットを修正するための主要なアプローチです。たとえば、医用画像分野では、放射線技師からの視線データは、意味のある前景領域に焦点を合わせるために深層学習モデルを導く大きな可能性を秘めた、効果的な人間の視覚的事前知識です。ただし、視線データの取得には時間がかかり、労働集約的であり、場合によっては実用的ではありません。この作業では、視線データがない場合のViTでのショートカット学習を修正するために、新規で効果的な顕著性誘導ビジョントランスフォーマー(SGT)モデルを提案します。具体的には、入力画像サンプルの顕著性マップを予測するために、計算による視覚的顕著性モデルが採用されています。次に、顕著性マップを使用して、最も有益な画像パッチを抽出します。提案されたSGTでは、画像パッチ間の自己注意は、蒸留された有益なものにのみ焦点を当てています。この蒸留操作によりグローバルな情報が失われる可能性があることを考慮して、最後のエンコーダーレイヤーに、すべての画像パッチにわたる自己注意をキャプチャする残りの接続をさらに導入します。 4つの独立した公開データセットでの実験結果は、SGTフレームワークが視線データなしで人間の事前知識を効果的に学習および活用でき、ベースラインよりもはるかに優れたパフォーマンスを達成できることを示しています。一方、それは有害なショートカット学習を正常に修正し、ViTモデルの解釈可能性を大幅に改善し、ショートカット学習を修正する際に人間の事前知識から派生した視覚的顕著性を転送する可能性を示しています
Shortcut learning is common but harmful to deep learning models, leading to degenerated feature representations and consequently jeopardizing the model's generalizability and interpretability. However, shortcut learning in the widely used Vision Transformer framework is largely unknown. Meanwhile, introducing domain-specific knowledge is a major approach to rectifying the shortcuts, which are predominated by background related factors. For example, in the medical imaging field, eye-gaze data from radiologists is an effective human visual prior knowledge that has the great potential to guide the deep learning models to focus on meaningful foreground regions of interest. However, obtaining eye-gaze data is time-consuming, labor-intensive and sometimes even not practical. In this work, we propose a novel and effective saliency-guided vision transformer (SGT) model to rectify shortcut learning in ViT with the absence of eye-gaze data. Specifically, a computational visual saliency model is adopted to predict saliency maps for input image samples. Then, the saliency maps are used to distil the most informative image patches. In the proposed SGT, the self-attention among image patches focus only on the distilled informative ones. Considering this distill operation may lead to global information lost, we further introduce, in the last encoder layer, a residual connection that captures the self-attention across all the image patches. The experiment results on four independent public datasets show that our SGT framework can effectively learn and leverage human prior knowledge without eye gaze data and achieves much better performance than baselines. Meanwhile, it successfully rectifies the harmful shortcut learning and significantly improves the interpretability of the ViT model, demonstrating the promise of transferring human prior knowledge derived visual saliency in rectifying shortcut learning
updated: Fri Jun 17 2022 05:54:07 GMT+0000 (UTC)
published: Fri Jun 17 2022 05:54:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト