arXiv reaDer
分布外検出方法は信頼できますか?
Are Out-of-Distribution Detection Methods Reliable?
この論文では、現実的な設定で分布外 (OOD) 検出のパフォーマンスを評価するための新しい評価フレームワークを確立します。私たちの目標は、既存の OOD 検出ベンチマークの欠点を明らかにし、実際のアプリケーションの要件を満たすために必要な研究の方向転換を促進することです。新しい OOD テスト データセット CIFAR-10-R、CIFAR-100-R、および MVTec-R を導入することで、OOD 検出の研究を拡大します。これにより、研究者は現実的な分布シフトの下で OOD 検出パフォーマンスをベンチマークできます。また、一般化可能性スコアを導入して、標準的な OOD 検出テスト データセットから現実的な設定に一般化するメソッドの能力を測定します。既存の OOD 検出研究とは対照的に、標準的なベンチマーク データセットのパフォーマンスをさらに向上させても、現実世界でのそのようなモデルの使いやすさは向上しないことを示しています。現実的な分布シフト データセットでテストされた最先端の (SOTA) メソッドは、パフォーマンスが最大 45% 低下します。この設定は、実世界の環境に展開する前に OOD モデルの信頼性を評価するために重要です。
This paper establishes a novel evaluation framework for assessing the performance of out-of-distribution (OOD) detection in realistic settings. Our goal is to expose the shortcomings of existing OOD detection benchmarks and encourage a necessary research direction shift toward satisfying the requirements of real-world applications. We expand OOD detection research by introducing new OOD test datasets CIFAR-10-R, CIFAR-100-R, and MVTec-R, which allow researchers to benchmark OOD detection performance under realistic distribution shifts. We also introduce a generalizability score to measure a method's ability to generalize from standard OOD detection test datasets to a realistic setting. Contrary to existing OOD detection research, we demonstrate that further performance improvements on standard benchmark datasets do not increase the usability of such models in the real world. State-of-the-art (SOTA) methods tested on our realistic distributionally-shifted datasets drop in performance for up to 45%. This setting is critical for evaluating the reliability of OOD models before they are deployed in real-world environments.
updated: Sun Nov 20 2022 07:30:15 GMT+0000 (UTC)
published: Sun Nov 20 2022 07:30:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト