畳み込みニューラルネットワーク(CNN)に基づく既存の画像認識技術は、基本的に、トレーニングおよびテストデータセットがiid分布からサンプリングされることを前提としています。ただし、入力画像のオブジェクトと背景の共起関係が変化すると分布がシフトするため、現実の世界ではこの仮定は簡単に破られます。このタイプの分布シフトでは、CNNは、トレーニングデータの背景など、タスクに関連しない機能に焦点を当てることを学習し、テストデータの精度を低下させます。この問題に取り組むために、関連する機能フォーカシング(ReFF)を提案します。 ReFFは、タスク関連の機能を検出し、説明出力(Grad-CAMなど)を介してCNNを正規化します。 ReFFは事後説明モジュールで構成されているため、既成のCNNに簡単に適用できます。さらに、ReFFはトレーニング中の正則化にのみ使用されるため、テスト時に追加の推論コストを必要としません。 ReFFでトレーニングされたCNNがターゲットタスクに関連する機能に焦点を合わせていること、およびReFFがテスト時間の精度を向上させることを示します。
Existing image recognition techniques based on convolutional neural networks (CNNs) basically assume that the training and test datasets are sampled from i.i.d distributions. However, this assumption is easily broken in the real world because of the distribution shift that occurs when the co-occurrence relations between objects and backgrounds in input images change. Under this type of distribution shift, CNNs learn to focus on features that are not task-relevant, such as backgrounds from the training data, and degrade their accuracy on the test data. To tackle this problem, we propose relevant feature focusing (ReFF). ReFF detects task-relevant features and regularizes CNNs via explanation outputs (e.g., Grad-CAM). Since ReFF is composed of post-hoc explanation modules, it can be easily applied to off-the-shelf CNNs. Furthermore, ReFF requires no additional inference cost at test time because it is only used for regularization while training. We demonstrate that CNNs trained with ReFF focus on features relevant to the target task and that ReFF improves the test-time accuracy.