エピジェネティックな変化は、いくつかの種類の癌の発症に重要な役割を果たします。エピジェネティックな研究では大量のデータが生成されるため、大規模なデータを処理できる新しいモデルを開発することが不可欠です。この作業では、DNAメチル化に基づく乳がんの分化のための深く埋め込まれた洗練されたクラスタリング手法を提案します。具体的には、ここで紹介する深層学習システムは、0〜1のCpGアイランドメチル化のレベルを使用します。提案されたアプローチは、2つの主要な段階で構成されています。最初の段階は、オートエンコーダーに基づくメチル化データの次元削減です。第2段階は、オートエンコーダーによって提供される潜在空間のソフト割り当てに基づくクラスタリングアルゴリズムです。メソッド全体は、再構成項と分類項の2つの項で構成される加重損失関数によって最適化されます。著者の知る限り、これまでの研究では、DNAメチル化分析のためにエンドツーエンドでトレーニングされた分類にリンクされた次元削減アルゴリズムに焦点を当てていませんでした。提案された方法は、137の乳房組織サンプルで0.9927の教師なしクラスタリング精度と0.73のエラー率(%)を達成します。異なるメチル化データベースを使用した深層学習ベースの方法の2回目のテストの後、45の乳房組織サンプルで0.9343の精度と6.57のエラー率(%)が得られます。これらの結果に基づいて、提案されたアルゴリズムは、DNAメチル化データに基づく乳がん分類のために同じ条件下で評価された他の最先端の方法よりも優れています。
Epigenetic alterations have an important role in the development of several types of cancer. Epigenetic studies generate a large amount of data, which makes it essential to develop novel models capable of dealing with large-scale data. In this work, we propose a deep embedded refined clustering method for breast cancer differentiation based on DNA methylation. In concrete, the deep learning system presented here uses the levels of CpG island methylation between 0 and 1. The proposed approach is composed of two main stages. The first stage consists in the dimensionality reduction of the methylation data based on an autoencoder. The second stage is a clustering algorithm based on the soft-assignment of the latent space provided by the autoencoder. The whole method is optimized through a weighted loss function composed of two terms: reconstruction and classification terms. To the best of the authors' knowledge, no previous studies have focused on the dimensionality reduction algorithms linked to classification trained end-to-end for DNA methylation analysis. The proposed method achieves an unsupervised clustering accuracy of 0.9927 and an error rate (%) of 0.73 on 137 breast tissue samples. After a second test of the deep-learning-based method using a different methylation database, an accuracy of 0.9343 and an error rate (%) of 6.57 on 45 breast tissue samples is obtained. Based on these results, the proposed algorithm outperforms other state-of-the-art methods evaluated under the same conditions for breast cancer classification based on DNA methylation data.