アテンションモジュールは、深いモデルが交絡コンテキストで堅牢な因果的特徴を学習するのに常に役立つとは限りません。たとえば、前景オブジェクトの特徴はさまざまな背景に対して不変です。これは、交絡因子が注意をだまして、トレーニングデータとテストデータがIID(同一で独立した分布)である場合に予測に役立つ疑似相関をキャプチャするためです。データがOOD(分布外)の場合、予測に悪影響を及ぼします。因果的注意を学習するための唯一の基本的な解決策は、交絡因子の追加の注釈を必要とする因果的介入によるものです。たとえば、「犬」モデルはそれぞれ「草+犬」と「道路+犬」内で学習されるため、「草」と「道路」のコンテキストは、「犬」の認識を混乱させることはもうありません。しかし、そのような注釈は、法外に高価であるだけでなく、交絡因子が本質的にとらえどころのないものであるため、本質的に問題があります。この論文では、教師なしの方法で交絡因子に自己注釈を付ける因果的注意モジュール(CaaM)を提案します。特に、複数のCaaMを積み重ねて、従来のアテンションCNNおよびセルフアテンションVisionTransformerに統合できます。 OOD設定では、CaaMを使用したディープモデルは、CaaMを使用しないモデルよりも大幅に優れています。 IID設定でも、注意のローカリゼーションはCaaMによっても改善され、堅牢な視覚的顕著性を必要とするアプリケーションで大きな可能性を示しています。コードはhttps://github.com/Wangt-CN/CaaMで入手できます。
Attention module does not always help deep models learn causal features that are robust in any confounding context, e.g., a foreground object feature is invariant to different backgrounds. This is because the confounders trick the attention to capture spurious correlations that benefit the prediction when the training and testing data are IID (identical & independent distribution); while harm the prediction when the data are OOD (out-of-distribution). The sole fundamental solution to learn causal attention is by causal intervention, which requires additional annotations of the confounders, e.g., a "dog" model is learned within "grass+dog" and "road+dog" respectively, so the "grass" and "road" contexts will no longer confound the "dog" recognition. However, such annotation is not only prohibitively expensive, but also inherently problematic, as the confounders are elusive in nature. In this paper, we propose a causal attention module (CaaM) that self-annotates the confounders in unsupervised fashion. In particular, multiple CaaMs can be stacked and integrated in conventional attention CNN and self-attention Vision Transformer. In OOD settings, deep models with CaaM outperform those without it significantly; even in IID settings, the attention localization is also improved by CaaM, showing a great potential in applications that require robust visual saliency. Codes are available at https://github.com/Wangt-CN/CaaM.