Weighted Least Squares Twin Support Vector Machine with Fuzzy Rough Set Theory for Imbalanced Data Classification
サポートベクターマシン(SVM)は、分類の問題を解決するために開発された強力な教師あり学習ツールです。ただし、SVMは、不均衡なデータの分類でパフォーマンスが低下する可能性があります。ラフ集合論は、データから無関係な情報を削除する方法を提供する、非決定論的なケースで推論するための数学的ツールを提示します。この作業では、不均衡なデータの分類のために、FRLSTSVMと呼ばれる加重最小二乗ツインサポートベクターマシンでファジーラフ集合理論を効率的に使用するアプローチを提案します。最初の革新は、不均衡なデータに関して分類器を堅牢にするために、新しいファジーラフ集合ベースのアンダーサンプリング戦略を導入することです。 FRLSTSVMで2つの近位超平面を構築する場合、少数派クラスのデータポイントは変更されませんが、多数派クラスのデータポイントのサブセットは新しい方法を使用して選択されます。このモデルでは、LSTSVMの定式化に重みバイアスを埋め込んで、不均衡なデータを分類するための元のツインSVMのバイアス現象を克服しました。この定式化でこれらの重みを決定するために、2番目のイノベーションとしてファジーラフ集合理論を使用する新しい戦略を導入します。関連する従来のSVMベースの方法と比較した、有名な不均衡なデータセットに関する実験結果は、不均衡なデータ分類における提案されたFRLSTSVMモデルの優位性を示しています。
Support vector machines (SVMs) are powerful supervised learning tools developed to solve classification problems. However, SVMs are likely to perform poorly in the classification of imbalanced data. The rough set theory presents a mathematical tool for inference in nondeterministic cases that provides methods for removing irrelevant information from data. In this work, we propose an approach that efficiently used fuzzy rough set theory in weighted least squares twin support vector machine called FRLSTSVM for classification of imbalanced data. The first innovation is introducing a new fuzzy rough set-based under-sampling strategy to make the classifier robust in terms of the imbalanced data. For constructing the two proximal hyperplanes in FRLSTSVM, data points from the minority class remain unchanged while a subset of data points in the majority class are selected using a new method. In this model, we embed the weight biases in the LSTSVM formulations to overcome the bias phenomenon in the original twin SVM for the classification of imbalanced data. In order to determine these weights in this formulation, we introduce a new strategy that uses fuzzy rough set theory as the second innovation. Experimental results on the famous imbalanced datasets, compared to the related traditional SVM-based methods, demonstrate the superiority of the proposed FRLSTSVM model in the imbalanced data classification.
updated: Fri May 21 2021 20:29:05 GMT+0000 (UTC)
published: Mon May 03 2021 22:33:39 GMT+0000 (UTC)
