深い畳み込みニューラルネットワークの内部動作を理解するために広く使用されているアプローチの1つは、アクティブ化の最大化を介してユニット応答を視覚化することです。活性化最大化による特徴の視覚化は、ユニットを活性化させる画像特徴に関する正確な情報を人間に提供すると考えられています。これが実際に当てはまる場合、これらの合成画像は、画像の特定のパッチ(たとえば犬の頭)を塞ぐことでユニットの活性化が変化するかどうかなど、介入の効果を人間が予測できるようにする必要があります。ここでは、2つの正方形のオクルージョンのどちらがユニットのアクティブ化に大きな変化をもたらすかを予測するように人間に依頼することにより、この仮説をテストします。大規模なクラウドソーシングによる実験と専門家による測定の両方で、平均して、Olah etal。による非常にアクティブな機能の視覚化が示されています。 (2017)確かにこのタスクで人間を助けます(67±4%の精度;視覚化なしのベースラインパフォーマンスは60±3%です)。ただし、他の視覚化(データセットサンプルなど)に比べて大きな利点はなく、同様のパフォーマンス(66±3%から67±3%の精度)が得られます。一緒に取られて、私たちは人間のためのユニットレベルの解釈可能性の方法の利点を定量化するために客観的な精神物理学的タスクを提案し、特徴の視覚化が単純な代替の視覚化よりも優れた「因果関係の理解」を人間に提供するという証拠を見つけません。
One widely used approach towards understanding the inner workings of deep convolutional neural networks is to visualize unit responses via activation maximization. Feature visualizations via activation maximization are thought to provide humans with precise information about the image features that cause a unit to be activated. If this is indeed true, these synthetic images should enable humans to predict the effect of an intervention, such as whether occluding a certain patch of the image (say, a dog's head) changes a unit's activation. Here, we test this hypothesis by asking humans to predict which of two square occlusions causes a larger change to a unit's activation. Both a large-scale crowdsourced experiment and measurements with experts show that on average, the extremely activating feature visualizations by Olah et al. (2017) indeed help humans on this task (67 ±4% accuracy; baseline performance without any visualizations is 60 ±3%). However, they do not provide any significant advantage over other visualizations (such as e.g. dataset samples), which yield similar performance (66 ±3% to 67 ±3% accuracy). Taken together, we propose an objective psychophysical task to quantify the benefit of unit-level interpretability methods for humans, and find no evidence that feature visualizations provide humans with better "causal understanding" than simple alternative visualizations.