arXiv reaDer
ニューラルネットワーク分類のためのカーネル密度推定ベースのサンプリング
Kernel density estimation-based sampling for neural network classification
不均衡なデータは、さまざまなシナリオで発生します。ターゲット変数の偏った分布は、機械学習アルゴリズムにバイアスを引き起こします。不均衡なデータと戦うための一般的な方法の1つは、リサンプリングによってデータのバランスを人為的に調整することです。この論文では、人工ニューラルネットワークのコンテキストで最近提案されたカーネル密度推定(KDE)サンプリング手法の有効性を比較します。 KDEサンプリング方法を2つの基本サンプリング手法に対してベンチマークし、8つのデータセットと3つのニューラルネットワークアーキテクチャを使用して比較実験を実行します。結果は、KDEサンプリングが8つのデータセットのうち6つで最高のパフォーマンスを生み出すことを示しています。ただし、画像データセットでは注意して使用する必要があります。 KDEサンプリングは、ニューラルネットワークのパフォーマンスを大幅に向上させることができると結論付けています。
Imbalanced data occurs in a wide range of scenarios. The skewed distribution of the target variable elicits bias in machine learning algorithms. One of the popular methods to combat imbalanced data is to artificially balance the data through resampling. In this paper, we compare the efficacy of a recently proposed kernel density estimation (KDE) sampling technique in the context of artificial neural networks. We benchmark the KDE sampling method against two base sampling techniques and perform comparative experiments using 8 datasets and 3 neural networks architectures. The results show that KDE sampling produces the best performance on 6 out of 8 datasets. However, it must be used with caution on image datasets. We conclude that KDE sampling is capable of significantly improving the performance of neural networks.
updated: Mon Oct 25 2021 04:59:42 GMT+0000 (UTC)
published: Mon Oct 25 2021 04:59:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト