arXiv reaDer
不変の識別特徴を学習するための一般的な自己監視フレームワーク
A Generic Self-Supervised Framework of Learning Invariant Discriminative Features
自己監視学習(SSL)は、人間の注釈を必要とせずに不変表現を生成するための一般的な方法になりました。それにもかかわらず、入力データに対して以前のオンライン変換関数を利用することにより、望ましい不変表現が実現されます。その結果、各SSLフレームワークは、ビジュアルデータなどの特定のデータタイプに合わせてカスタマイズされ、他のデータセットタイプに使用する場合は、さらに変更する必要があります。一方、一般的で広く適用可能なフレームワークであるオートエンコーダー(AE)は、主に次元削減に焦点を当てており、不変表現の学習には適していません。この論文は、縮退したソリューションを防ぐ制約された自己ラベル付け割り当てプロセスに基づく一般的なSSLフレームワークを提案します。具体的には、以前の変換関数は、不変の表現を課すために、敵対的トレーニングの教師なしトレーニングプロセスを通じて導出された自己変換メカニズムに置き換えられます。自己変換メカニズムを介して、拡張インスタンスのペアを同じ入力データから生成できます。最後に、対照的な学習に基づくトレーニング目標は、自己ラベル付けの割り当てと自己変換メカニズムの両方を活用することによって設計されます。自己変換プロセスは非常に一般的であるという事実にもかかわらず、提案されたトレーニング戦略は、AE構造に基づく最先端の表現学習方法の大部分よりも優れています。私たちの方法のパフォーマンスを検証するために、4種類のデータ、つまり視覚、音声、テキスト、および質量分析データで実験を行い、4つの定量的メトリックの観点からそれらを比較します。私たちの比較結果は、提案された方法がロバスト性を示し、データセット内のパターンをうまく識別することを示しています。
Self-supervised learning (SSL) has become a popular method for generating invariant representations without the need for human annotations. Nonetheless, the desired invariant representation is achieved by utilising prior online transformation functions on the input data. As a result, each SSL framework is customised for a particular data type, e.g., visual data, and further modifications are required if it is used for other dataset types. On the other hand, autoencoder (AE), which is a generic and widely applicable framework, mainly focuses on dimension reduction and is not suited for learning invariant representation. This paper proposes a generic SSL framework based on a constrained self-labelling assignment process that prevents degenerate solutions. Specifically, the prior transformation functions are replaced with a self-transformation mechanism, derived through an unsupervised training process of adversarial training, for imposing invariant representations. Via the self-transformation mechanism, pairs of augmented instances can be generated from the same input data. Finally, a training objective based on contrastive learning is designed by leveraging both the self-labelling assignment and the self-transformation mechanism. Despite the fact that the self-transformation process is very generic, the proposed training strategy outperforms a majority of state-of-the-art representation learning methods based on AE structures. To validate the performance of our method, we conduct experiments on four types of data, namely visual, audio, text, and mass spectrometry data, and compare them in terms of four quantitative metrics. Our comparison results indicate that the proposed method demonstrate robustness and successfully identify patterns within the datasets.
updated: Mon Feb 14 2022 18:09:43 GMT+0000 (UTC)
published: Mon Feb 14 2022 18:09:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト