arXiv reaDer
DORA: ディープ ニューラル ネットワークにおける外れ値表現の調査
DORA: Exploring outlier representations in Deep Neural Networks
ディープ ニューラル ネットワーク (DNN) は、複雑な抽象化を学習するのに非常に効果的ですが、トレーニング データから偽のアーティファクトを意図せずに学習する可能性があります。モデルの透明性を確保するには、学習した表現間の関係を調べることが重要です。意図しない概念が、目的のタスクに対して異常であることがしばしば明らかになるためです。この作業では、DNN の表現空間を分析するための最初のデータに依存しないフレームワークである DORA (Data-agnOstic Representation Analysis) を紹介します。私たちのフレームワークは、データにアクセスせずにネットワーク内の自己説明機能を利用する、提案された表現間の極端活性化 (EA) 距離測定を採用しています。メトリックの正確性と、人間が定義したセマンティック距離との整合性を定量的に検証します。 EA 距離と人間の判断との間の一貫性により、機能的距離の外れ値を特定することにより、人間が根底にある概念が不自然であると見なす表現を特定することができます。最後に、一般的なコンピューター ビジョン モデルのアーティファクト表現を分析および識別することにより、DORA の実際的な有用性を示します。
Although Deep Neural Networks (DNNs) are incredibly effective in learning complex abstractions, they are susceptible to unintentionally learning spurious artifacts from the training data. To ensure model transparency, it is crucial to examine the relationships between learned representations, as unintended concepts often manifest themselves to be anomalous to the desired task. In this work, we introduce DORA (Data-agnOstic Representation Analysis): the first data-agnostic framework for the analysis of the representation space of DNNs. Our framework employs the proposed Extreme-Activation (EA) distance measure between representations that utilizes self-explaining capabilities within the network without accessing any data. We quantitatively validate the metric's correctness and alignment with human-defined semantic distances. The coherence between the EA distance and human judgment enables us to identify representations whose underlying concepts would be considered unnatural by humans by identifying outliers in functional distance. Finally, we demonstrate the practical usefulness of DORA by analyzing and identifying artifact representations in popular Computer Vision models.
updated: Thu Apr 27 2023 12:07:46 GMT+0000 (UTC)
published: Thu Jun 09 2022 14:25:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト