arXiv reaDer
ビデオ理解モデルを視覚的に説明するための勾配周波数変調
Gradient Frequency Modulation for Visually Explaining Video Understanding Models
多くのアプリケーションでは、機械学習モデルが決定を下す理由を理解することが不可欠ですが、これは最先端のニューラルネットワークのブラックボックスの性質によって抑制されています。このため、ビデオ理解の分野を含む深層学習の説明可能性にますます注目が集まっています。ビデオデータの時間的次元のため、ビデオアクション認識モデルを説明する主な課題は、既存の文献では無視されてきた、時空間的に一貫した視覚的説明を作成することです。この論文では、ビデオ理解モデルの決定を説明するために、周波数ベースの極値摂動(F-EP)を提案します。摂動法による説明は、空間的にも時間的にもノイズが多く滑らかではないため、離散コサイン変換(DCT)を使用してニューラルネットワークモデルからの勾配マップの周波数を変調することを提案します。一連の実験で、F-EPが、既存の最先端の方法と比較して、モデルの決定をより忠実に表す、より時空間的に一貫した説明を提供することを示します。
In many applications, it is essential to understand why a machine learning model makes the decisions it does, but this is inhibited by the black-box nature of state-of-the-art neural networks. Because of this, increasing attention has been paid to explainability in deep learning, including in the area of video understanding. Due to the temporal dimension of video data, the main challenge of explaining a video action recognition model is to produce spatiotemporally consistent visual explanations, which has been ignored in the existing literature. In this paper, we propose Frequency-based Extremal Perturbation (F-EP) to explain a video understanding model's decisions. Because the explanations given by perturbation methods are noisy and non-smooth both spatially and temporally, we propose to modulate the frequencies of gradient maps from the neural network model with a Discrete Cosine Transform (DCT). We show in a range of experiments that F-EP provides more spatiotemporally consistent explanations that more faithfully represent the model's decisions compared to the existing state-of-the-art methods.
updated: Tue Nov 30 2021 03:21:16 GMT+0000 (UTC)
published: Mon Nov 01 2021 19:07:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト