この論文では、適応オクルージョン感度分析 (AOSA) と呼ばれる、オクルージョン感度分析の時間的拡張を使用して、ビデオ認識ネットワークの意思決定プロセスを視覚的に説明する方法を提案します。ここでの重要なアイデアは、入力された 3D 時空間データ空間内の特定のボリュームのデータを 3D マスクで遮蔽し、出力スコアの変化度を測定することです。変化度が大きい閉塞ボリュームデータほど、分類の重要な要素とみなされる。ただし、オクルージョン感度分析は単一画像の分類を分析するために一般的に使用されますが、単純な固定直方体では複雑な動きに対処できないため、このアイデアをビデオ分類に適用することはそれほど簡単ではありません。この問題を解決するために、モーションを参照しながら 3D オクルージョン マスクの形状を適応的に設定します。柔軟なマスク適応は、入力ビデオ データから抽出されたオプティカル フローの時間的連続性と空間的同時発生を考慮して実行されます。さらに、入力ビデオに対する出力スコアの一次近似を使用して、提案された方法の計算コストを削減する新しい方法を提案します。 UCF101 データセット、Kinetics-400 および 700 データセットの削除/挿入メトリックとポインティング メトリックに関して、従来の方法とのさまざまかつ広範な比較を通じて、私たちの方法の有効性を実証します。
This paper proposes a method for visually explaining the decision-making process of video recognition networks with a temporal extension of occlusion sensitivity analysis, called Adaptive Occlusion Sensitivity Analysis (AOSA). The key idea here is to occlude a specific volume of data by a 3D mask in an input 3D temporal-spatial data space and then measure the change degree in the output score. The occluded volume data that produces a larger change degree is regarded as a more critical element for classification. However, while the occlusion sensitivity analysis is commonly used to analyze single image classification, applying this idea to video classification is not so straightforward as a simple fixed cuboid cannot deal with complicated motions. To solve this issue, we adaptively set the shape of a 3D occlusion mask while referring to motions. Our flexible mask adaptation is performed by considering the temporal continuity and spatial co-occurrence of the optical flows extracted from the input video data. We further propose a novel method to reduce the computational cost of the proposed method with the first-order approximation of the output score with respect to an input video. We demonstrate the effectiveness of our method through various and extensive comparisons with the conventional methods in terms of the deletion/insertion metric and the pointing metric on the UCF101 dataset and the Kinetics-400 and 700 datasets.