Deep Semi-Supervised Anomaly Detection
近年、大規模で複雑なデータセットに対して、深層アプローチによる異常検出が浅い手法に比べて有望な結果を示している。通常、異常検出は教師なし学習問題として扱われる。しかし、実際には、ラベル付けされていないサンプルの大規模なセットに加えて、ラベル付けされたサンプルの小さなプール、例えば、ドメインエキスパートによって正常または異常であると検証されたサブセットにアクセスすることができる。半教師付きの異常検出アプローチは、このようなラベル付きサンプルを利用することを目的としているが、提案されているほとんどの方法は、単にラベル付きの正常サンプルを含めることに限定されている。また、ラベル付けされた異常を利用する手法は少数であり、既存の深層アプローチはドメイン固有のものである。本研究では、一般的な半教師付き異常検出のためのエンドツーエンドの深層手法であるDeep SADを提案する。さらに、正規データの潜在分布のエントロピーは異常分布のエントロピーよりも低くなければならないという考えに基づいた、深層の異常検出のための情報理論的なフレームワークを紹介する。MNIST、Fashion-MNIST、CIFAR-10と他の異常検出ベンチマークデータセットでの広範な実験で、我々の手法が浅い、ハイブリッド、および深い競合と同等かそれを上回ることを実証し、わずかなラベル付きデータしか提供されない場合でもかなりの性能向上をもたらすことを示した。
Deep approaches to anomaly detection have recently shown promising results over shallow methods on large and complex datasets. Typically anomaly detection is treated as an unsupervised learning problem. In practice however, one may have---in addition to a large set of unlabeled samples---access to a small pool of labeled samples, e.g. a subset verified by some domain expert as being normal or anomalous. Semi-supervised approaches to anomaly detection aim to utilize such labeled samples, but most proposed methods are limited to merely including labeled normal samples. Only a few methods take advantage of labeled anomalies, with existing deep approaches being domain-specific. In this work we present Deep SAD, an end-to-end deep methodology for general semi-supervised anomaly detection. We further introduce an information-theoretic framework for deep anomaly detection based on the idea that the entropy of the latent distribution for normal data should be lower than the entropy of the anomalous distribution, which can serve as a theoretical interpretation for our method. In extensive experiments on MNIST, Fashion-MNIST, and CIFAR-10, along with other anomaly detection benchmark datasets, we demonstrate that our method is on par or outperforms shallow, hybrid, and deep competitors, yielding appreciable performance improvements even when provided with only little labeled data.
updated: Fri Feb 14 2020 10:10:15 GMT+0000 (UTC)
published: Thu Jun 06 2019 16:46:56 GMT+0000 (UTC)
