arXiv reaDer
CX-ToM:画像認識モデルにおける人間の信頼を高めるための心の理論による反事実的説明
CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing Human Trust in Image Recognition Models
心の理論による反事実的説明の略であるCX-ToMを提案します。これは、深い畳み込みニューラルネットワーク(CNN)によって行われた決定を説明するための新しい説明可能なAI(XAI)フレームワークです。単発の応答として説明を生成するXAIの現在の方法とは対照的に、私たちは説明を、機械と人間のユーザーとの間の反復的なコミュニケーションプロセス、つまり対話として提示します。より具体的には、CX-ToMフレームワークは、機械と人間のユーザーの心の違いを仲介することにより、ダイアログで一連の説明を生成します。これを行うには、心の理論(ToM)を使用します。これは、人間の意図、人間が推測する機械の心、および機械が推測する人間の心を明示的にモデル化するのに役立ちます。さらに、ほとんどの最先端のXAIフレームワークは、注意(またはヒートマップ)ベースの説明を提供します。私たちの仕事では、これらの注意に基づく説明は、基礎となるCNNモデルに対する人間の信頼を高めるには不十分であることを示しています。 CX-ToMでは、代わりに、次のように定義するフォールトラインと呼ばれる反事実的な説明を使用します。CNN分類モデルMがクラスc_predを予測する入力画像Iが与えられると、フォールトラインは最小のセマンティックレベルの特徴を識別します(例:説明可能な概念と呼ばれるシマウマの縞模様(犬の先のとがった耳)。これは、MによるIの分類カテゴリを別の指定されたクラスc_altに変更するために、Iに追加またはIから削除する必要があります。 CX-ToMの説明は反復的、概念的、反事実的であるため、私たちのフレームワークは実用的であり、専門家と非専門家の両方のユーザーが複雑な深層学習モデルの内部動作を理解するのにより自然であると主張します。広範な定量的および定性的実験により、仮説が検証され、CX-ToMが最先端の説明可能なAIモデルを大幅に上回っていることを示しています。
We propose CX-ToM, short for counterfactual explanations with theory-of mind, a new explainable AI (XAI) framework for explaining decisions made by a deep convolutional neural network (CNN). In contrast to the current methods in XAI that generate explanations as a single shot response, we pose explanation as an iterative communication process, i.e. dialog, between the machine and human user. More concretely, our CX-ToM framework generates sequence of explanations in a dialog by mediating the differences between the minds of machine and human user. To do this, we use Theory of Mind (ToM) which helps us in explicitly modeling human's intention, machine's mind as inferred by the human as well as human's mind as inferred by the machine. Moreover, most state-of-the-art XAI frameworks provide attention (or heat map) based explanations. In our work, we show that these attention based explanations are not sufficient for increasing human trust in the underlying CNN model. In CX-ToM, we instead use counterfactual explanations called fault-lines which we define as follows: given an input image I for which a CNN classification model M predicts class c_pred, a fault-line identifies the minimal semantic-level features (e.g., stripes on zebra, pointed ears of dog), referred to as explainable concepts, that need to be added to or deleted from I in order to alter the classification category of I by M to another specified class c_alt. We argue that, due to the iterative, conceptual and counterfactual nature of CX-ToM explanations, our framework is practical and more natural for both expert and non-expert users to understand the internal workings of complex deep learning models. Extensive quantitative and qualitative experiments verify our hypotheses, demonstrating that our CX-ToM significantly outperforms the state-of-the-art explainable AI models.
updated: Thu Dec 02 2021 22:51:12 GMT+0000 (UTC)
published: Fri Sep 03 2021 09:46:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト