arXiv reaDer
RelDenClu:非線形特徴関係を識別するための相対密度ベースのバイクラスタリング手法
RelDenClu: A Relative Density based Biclustering Method for identifying non-linear feature relations
特徴関係ベースのバイクラスターを見つけるための既存のバイクラスタリングアルゴリズムは、単調性や線形性などの仮定に依存することがよくあります。いくつかのアルゴリズムは密度ベースの方法を使用してこの問題を克服しますが、密な領域を識別するためにグローバル基準を使用するため、多くのバイクラスターを見逃す傾向があります。提案された方法であるRelDenCluは、特徴の各ペアの周辺密度と結合密度の局所的な変動を使用して、それらの間の関係の基礎を形成する観測値のサブセットを見つけます。次に、共通の観測セットによって接続された機能のセットを見つけて、バイクラスターを生成します。提案された方法論の有効性を示すために、15種類のシミュレートされたデータセットで実験が行われました。さらに、6つの実際のデータセットに適用されています。これらの実際のデータセットのうち3つについては、提案された方法が教師なし学習に使用され、他の3つの実際のデータセットについては、教師あり学習の補助として使用されます。すべてのデータセットについて、提案された方法のパフォーマンスが7つの異なる最先端のアルゴリズムのパフォーマンスと比較され、提案されたアルゴリズムはより良い結果を生み出すことがわかります。提案されたアルゴリズムの有効性は、COVID-19の蔓延に影響を与える可能性のあるいくつかの特徴(遺伝的、人口統計など)を特定するためのCOVID-19データセットでの使用によっても見られます。
The existing biclustering algorithms for finding feature relation based biclusters often depend on assumptions like monotonicity or linearity. Though a few algorithms overcome this problem by using density-based methods, they tend to miss out many biclusters because they use global criteria for identifying dense regions. The proposed method, RelDenClu uses the local variations in marginal and joint densities for each pair of features to find the subset of observations, which forms the bases of the relation between them. It then finds the set of features connected by a common set of observations, resulting in a bicluster. To show the effectiveness of the proposed methodology, experimentation has been carried out on fifteen types of simulated datasets. Further, it has been applied to six real-life datasets. For three of these real-life datasets, the proposed method is used for unsupervised learning, while for other three real-life datasets it is used as an aid to supervised learning. For all the datasets the performance of the proposed method is compared with that of seven different state-of-the-art algorithms and the proposed algorithm is seen to produce better results. The efficacy of proposed algorithm is also seen by its use on COVID-19 dataset for identifying some features (genetic, demographics and others) that are likely to affect the spread of COVID-19.
updated: Tue May 11 2021 11:32:37 GMT+0000 (UTC)
published: Mon Nov 12 2018 11:11:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト