arXiv reaDer
介入による潜在空間の説明
Latent Space Explanation by Intervention
ディープニューラルネットの成功は、入力と出力の間の複雑な関係をエンコードする能力に大きく依存しています。このプロパティはトレーニングデータにうまく適合しますが、予測を駆動するメカニズムも不明瞭にします。この研究は、離散変分オートエンコーダに基づいて予測クラスをシフトする介入メカニズムを採用することにより、隠れた概念を明らかにすることを目的としています。次に、説明モデルは、隠れ層からのエンコードされた情報とそれに対応する介在表現を視覚化します。元の表現と介在する表現の違いを評価することにより、クラスを変更できる概念を決定できるため、解釈可能性が提供されます。 CelebAでのアプローチの有効性を示します。ここでは、データのバイアスに関するさまざまな視覚化を示し、バイアスを明らかにして変更するためのさまざまな介入を提案します。
The success of deep neural nets heavily relies on their ability to encode complex relations between their input and their output. While this property serves to fit the training data well, it also obscures the mechanism that drives prediction. This study aims to reveal hidden concepts by employing an intervention mechanism that shifts the predicted class based on discrete variational autoencoders. An explanatory model then visualizes the encoded information from any hidden layer and its corresponding intervened representation. By the assessment of differences between the original representation and the intervened representation, one can determine the concepts that can alter the class, hence providing interpretability. We demonstrate the effectiveness of our approach on CelebA, where we show various visualizations for bias in the data and suggest different interventions to reveal and change bias.
updated: Thu Dec 09 2021 13:23:19 GMT+0000 (UTC)
published: Thu Dec 09 2021 13:23:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト