arXiv reaDer
DORA:ディープニューラルネットワークでの外れ値表現の調査
DORA: Exploring outlier representations in Deep Neural Networks
ディープニューラルネットワーク(DNN)は、学習した表現から力を引き出します。ただし、近年、研究者は、DNNは複雑な抽象化の学習に非常に効果的であると同時に、トレーニングに固有の疑似相関のために、バイアス、Clever Hanses(CH)、Backdoorsなどのアーティファクトに感染する傾向があることを発見しました。データ。これまでのところ、訓練されたモデルでそのような人為的および悪意のある動作を明らかにするための既存の方法は、入力データ内のアーティファクトを見つけることに焦点を当てています。これには、データセットの可用性と人間の介入の両方が必要です。この論文では、DORA(Data-agnOstic Representation Analysis)を紹介します。これは、ディープニューラルネットワークで感染の可能性のある表現を検出するための最初の自動データアグノスティック手法です。さらに、DORAによって検出された汚染された表現を使用して、任意のデータセット内の感染したサンプルを検出できることを示します。制御されたおもちゃのシナリオと、セーフティクリティカルなアプリケーションでのDORAの利点を示す実際の設定の両方で、提案された方法のパフォーマンスを定性的および定量的に評価します。
Deep Neural Networks (DNNs) draw their power from the representations they learn. In recent years, however, researchers have found that DNNs, while being incredibly effective in learning complex abstractions, also tend to be infected with artifacts, such as biases, Clever Hanses (CH), or Backdoors, due to spurious correlations inherent in the training data. So far, existing methods for uncovering such artifactual and malicious behavior in trained models focus on finding artifacts in the input data, which requires both availabilities of a data set and human intervention. In this paper, we introduce DORA (Data-agnOstic Representation Analysis): the first automatic data-agnostic method for the detection of potentially infected representations in Deep Neural Networks. We further show that contaminated representations found by DORA can be used to detect infected samples in any given dataset. We qualitatively and quantitatively evaluate the performance of our proposed method in both, controlled toy scenarios, and in real-world settings, where we demonstrate the benefit of DORA in safety-critical applications.
updated: Thu Jun 09 2022 14:25:14 GMT+0000 (UTC)
published: Thu Jun 09 2022 14:25:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト