arXiv reaDer
ビジョン トランスフォーマーを使用して Shapley 値を推定する方法を学習する
Learning to Estimate Shapley Values with Vision Transformers
トランスフォーマーは、コンピューター ビジョンの既定のアーキテクチャになっていますが、その予測を駆動するものを理解することは依然として困難な問題です。現在の説明アプローチは注意値または入力勾配に依存していますが、これらはモデルの依存関係の限定的なビューを提供します。 Shapley 値は、理論的には適切な代替手段を提供しますが、その計算コストにより、大規模で高次元のモデルには実用的ではありません。この作業では、Shapley 値をビジョン トランスフォーマー (ViT) にとって実用的なものにすることを目指しています。そのために、まずアテンション マスキング アプローチを活用して、部分的な情報で ViT を評価し、次に、別の学習済み説明モデルを介して Shapley 値の説明を生成する手順を開発します。私たちの実験では、Shapley 値を多くのベースライン メソッド (アテンション ロールアウト、GradCAM、LRP など) と比較しており、私たちのアプローチが ViT の既存の方法よりも正確な説明を提供することがわかりました。
Transformers have become a default architecture in computer vision, but understanding what drives their predictions remains a challenging problem. Current explanation approaches rely on attention values or input gradients, but these provide a limited view of a model's dependencies. Shapley values offer a theoretically sound alternative, but their computational cost makes them impractical for large, high-dimensional models. In this work, we aim to make Shapley values practical for vision transformers (ViTs). To do so, we first leverage an attention masking approach to evaluate ViTs with partial information, and we then develop a procedure to generate Shapley value explanations via a separate, learned explainer model. Our experiments compare Shapley values to many baseline methods (e.g., attention rollout, GradCAM, LRP), and we find that our approach provides more accurate explanations than existing methods for ViTs.
updated: Wed Mar 01 2023 20:24:58 GMT+0000 (UTC)
published: Fri Jun 10 2022 07:09:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト