arXiv reaDer
半教師あり学習のためのトポロジー的アプローチ
A Topological Approach for Semi-Supervised Learning
今日、機械学習とディープラーニングの手法は、データ分類タスクを解決するための最先端のアプローチになっています。これらの方法を使用するには、かなりの量のデータを取得してラベルを付ける必要があります。ただし、データアノテーションには時間がかかり、専門知識が必要になる場合があるため、これは一部のフィールドでは簡単ではありません。この課題は、ラベル付きデータとラベルなしデータの両方を利用する半教師あり学習方法によって取り組むことができます。この作業では、トポロジカルデータ分析(TDA)の手法に基づいた新しい半教師あり学習方法を紹介します。この分野は、多様性と次元性の高い大量のデータを分析するために重要性を増しています。特に、2つの異なるトポロジーアプローチに従って、2つの半教師あり学習方法を作成しました。前者では、ボトルネック距離とワッサースタイン距離を使用して、データに関連付けられた永続性図を調査することからなる相同的アプローチを使用しました。後者では、データの接続性を考慮に入れています。さらに、3つの合成データセット、5つの構造化データセット、および2つの画像データセットを使用して、開発されたメソッドの徹底的な分析を実行しました。結果は、この作業で開発された半教師あり手法が、手動でラベル付けされたデータのみでトレーニングされたモデルで得られた結果と、従来の半教師あり学習手法で得られた結果の両方を上回り、最大16%の改善に達したことを示しています。
Nowadays, Machine Learning and Deep Learning methods have become the state-of-the-art approach to solve data classification tasks. In order to use those methods, it is necessary to acquire and label a considerable amount of data; however, this is not straightforward in some fields, since data annotation is time consuming and might require expert knowledge. This challenge can be tackled by means of semi-supervised learning methods that take advantage of both labelled and unlabelled data. In this work, we present new semi-supervised learning methods based on techniques from Topological Data Analysis (TDA), a field that is gaining importance for analysing large amounts of data with high variety and dimensionality. In particular, we have created two semi-supervised learning methods following two different topological approaches. In the former, we have used a homological approach that consists in studying the persistence diagrams associated with the data using the Bottleneck and Wasserstein distances. In the latter, we have taken into account the connectivity of the data. In addition, we have carried out a thorough analysis of the developed methods using 3 synthetic datasets, 5 structured datasets, and 2 datasets of images. The results show that the semi-supervised methods developed in this work outperform both the results obtained with models trained with only manually labelled data, and those obtained with classical semi-supervised learning methods, reaching improvements of up to a 16%.
updated: Thu May 19 2022 15:23:39 GMT+0000 (UTC)
published: Thu May 19 2022 15:23:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト