Generating and Evaluating Explanations of Attended and Error-Inducing Input Regions for VQA Models
視覚的質問応答(VQA)の一般的なヒートマップベースの説明方法であるアテンションマップは、モデルが回答を推測するために使用する画像/質問の部分を強調表示することにより、ユーザーがモデルを理解するのに役立つはずです。ただし、モデルが誤った回答を生成しているにもかかわらず、関連する領域を指す現在のアテンションマップの視覚化にユーザーが誤解されることがよくあります。したがって、モデルがエラーを起こしやすい画像領域を強調表示することによってエラーを明確にするエラーマップを提案します。エラーマップは、正しく出席した地域が誤って処理され、誤った回答につながる可能性があることを示している可能性があります。したがって、これらのケースに対するユーザーの理解が向上します。新しい説明を評価するために、モデルの正確さを理解するための潜在的な有用性を評価するために、説明のユーザーの解釈をシミュレートするメトリックをさらに導入します。最後に、ユーザー調査を実施して、新しい説明がユーザーがベースラインよりもモデルの正確さを予想される30%よく理解するのに役立ち、プロキシの有用性メトリックがユーザーがモデルの正確さをどれだけうまく予測できるかと強く相関することを確認します(ρ> 0.97)。
Attention maps, a popular heatmap-based explanation method for Visual Question Answering (VQA), are supposed to help users understand the model by highlighting portions of the image/question used by the model to infer answers. However, we see that users are often misled by current attention map visualizations that point to relevant regions despite the model producing an incorrect answer. Hence, we propose Error Maps that clarify the error by highlighting image regions where the model is prone to err. Error maps can indicate when a correctly attended region may be processed incorrectly leading to an incorrect answer, and hence, improve users' understanding of those cases. To evaluate our new explanations, we further introduce a metric that simulates users' interpretation of explanations to evaluate their potential helpfulness to understand model correctness. We finally conduct user studies to see that our new explanations help users understand model correctness better than baselines by an expected 30% and that our proxy helpfulness metrics correlate strongly (ρ>0.97) with how well users can predict model correctness.
updated: Mon Oct 25 2021 18:58:42 GMT+0000 (UTC)
published: Fri Mar 26 2021 19:52:32 GMT+0000 (UTC)
