arXiv reaDer
説明と改善:画像キャプションモデルのLRP推論微調整
Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning Models
この論文は、注意自体を視覚化することを超えた注意メカニズムを備えた画像キャプションモデルの予測を分析します。注意メカニズムを備えた画像キャプションモデルに合わせて調整された、レイヤーごとの関連性伝播(LRP)および勾配ベースの説明方法のバリアントを開発します。注意ヒートマップの解釈可能性を、LRP、Grad-CAM、GuidedGrad-CAMなどの説明方法によって提供される説明と体系的に比較します。説明方法は、予測されたキャプションの各単語について、ピクセル単位の画像説明(入力画像のサポートおよび反対のピクセル)と言語の説明(前のシーケンスのサポートおよび反対の単語)を同時に提供することを示します。広範な実験により、説明方法1)注意と比較して意思決定を行うためにモデルが使用する追加の証拠を明らかにできることを示します。 2)オブジェクトの場所に高精度で相関します。 3)幻覚のオブジェクトワードの理由を分析するなどして、モデルを「デバッグ」するのに役立ちます。説明の観察された特性を使用して、画像キャプションモデルでのオブジェクトの幻覚の問題を減らし、その間、文の流暢さを維持するLRP推論微調整戦略をさらに設計します。広く使用されている2つの注意メカニズムを使用して実験を行います。加法注意で計算された適応注意メカニズムと、内積で計算されたマルチヘッド注意メカニズムです。
This paper analyzes the predictions of image captioning models with attention mechanisms beyond visualizing the attention itself. We develop variants of layer-wise relevance propagation (LRP) and gradient-based explanation methods, tailored to image captioning models with attention mechanisms. We compare the interpretability of attention heatmaps systematically against the explanations provided by explanation methods such as LRP, Grad-CAM, and Guided Grad-CAM. We show that explanation methods provide simultaneously pixel-wise image explanations (supporting and opposing pixels of the input image) and linguistic explanations (supporting and opposing words of the preceding sequence) for each word in the predicted captions. We demonstrate with extensive experiments that explanation methods 1) can reveal additional evidence used by the model to make decisions compared to attention; 2) correlate to object locations with high precision; 3) are helpful to "debug" the model, e.g. by analyzing the reasons for hallucinated object words. With the observed properties of explanations, we further design an LRP-inference fine-tuning strategy that reduces the issue of object hallucination in image captioning models, and meanwhile, maintains the sentence fluency. We conduct experiments with two widely used attention mechanisms: the adaptive attention mechanism calculated with the additive attention and the multi-head attention mechanism calculated with the scaled dot product.
updated: Sun Aug 01 2021 06:27:04 GMT+0000 (UTC)
published: Sat Jan 04 2020 05:15:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト