AIアルゴリズムを説明可能にすることについて多くの提案がありましたが、AIが生成した説明が人間とAIの共同作業を行う際の人間のパフォーマンスに与える影響を評価しようと試みたものはほとんどありませんでした。ギャップを埋めるために、視覚的質問応答のコンテキストで説明(視覚的証拠またはテキストによる正当化)の有効性を評価する方法として、Twenty-Questionsスタイルの共同画像検索ゲームである、説明支援型ゲス(ExAG)を提案します( VQA)。提案されたExAGでは、人間のユーザーは、自然言語の質問をして、VQAエージェントが選んだ秘密の画像を推測する必要があります。全体的に、AIが答えを説明すると、ユーザーは秘密の画像を正しく推測することに成功することが多くなることを示しています。特に、説明のないゲームと比較して、VQAの回答がほとんど正しくない場合、いくつかの正しい説明は人間のパフォーマンスを容易に改善できます。さらに、「役に立つ」と評価された説明は人間のパフォーマンスを大幅に改善しますが、「間違った」および「役に立たない」説明は、説明のないゲームと比較してパフォーマンスを低下させる可能性があることも示しています。人間とAIの共同作業に関するAIが生成した説明の有効性。
While there have been many proposals on making AI algorithms explainable, few have attempted to evaluate the impact of AI-generated explanations on human performance in conducting human-AI collaborative tasks. To bridge the gap, we propose a Twenty-Questions style collaborative image retrieval game, Explanation-assisted Guess Which (ExAG), as a method of evaluating the efficacy of explanations (visual evidence or textual justification) in the context of Visual Question Answering (VQA). In our proposed ExAG, a human user needs to guess a secret image picked by the VQA agent by asking natural language questions to it. We show that overall, when AI explains its answers, users succeed more often in guessing the secret image correctly. Notably, a few correct explanations can readily improve human performance when VQA answers are mostly incorrect as compared to no-explanation games. Furthermore, we also show that while explanations rated as "helpful" significantly improve human performance, "incorrect" and ünhelpful" explanations can degrade performance as compared to no-explanation games. Our experiments, therefore, demonstrate that ExAG is an effective means to evaluate the efficacy of AI-generated explanations on a human-AI collaborative task.