arXiv reaDer
帰納的バイアスを超えてマルチビュー表現を解きほぐす
Disentangling Multi-view Representations Beyond Inductive Bias
マルチビュー (またはモダリティ) 表現学習は、異なるビュー表現間の関係を理解することを目的としています。既存の手法は、強い帰納的バイアスを導入することによって、マルチビュー表現を一貫したビュー固有の表現に解きほぐしますが、一般化能力が制限される可能性があります。この論文では、帰納的バイアスを超えて、結果として得られる表現の解釈可能性と一般化可能性の両方を保証することを目的とした、新しいマルチビュー表現のもつれを解く方法を提案します。私たちの方法は、マルチビューの一貫性を事前に発見することで情報のもつれを解く境界を決定し、分離された学習目標につながるという観察に基づいています。また、ビュー間の変換不変性とクラスタリングの一貫性を最大化することで、一貫性を簡単に抽出できることもわかりました。これらの観察により、私たちは 2 段階のフレームワークを提案するようになりました。最初の段階では、一貫性のあるエンコーダーをトレーニングして、ビュー全体およびそれに対応する疑似ラベル全体で意味的に一貫した表現を生成することで、マルチビューの一貫性を実現します。第 2 段階では、一貫した表現と包括的な表現の間の相互情報量の上限を最小限に抑えることで、包括的な表現から特異性を解きほぐします。最後に、擬似ラベルとビュー固有の表現を連結することによって、元のデータを再構築します。 4 つのマルチビュー データセットに対する実験では、クラスタリングと分類のパフォーマンスの点で、提案された方法が 12 の比較方法よりも優れていることが実証されました。視覚化の結果は、抽出された一貫性と特異性がコンパクトで解釈可能であることも示しています。私たちのコードは https://github.com/Guanzhou-Ke/DMRIB にあります。
Multi-view (or -modality) representation learning aims to understand the relationships between different view representations. Existing methods disentangle multi-view representations into consistent and view-specific representations by introducing strong inductive biases, which can limit their generalization ability. In this paper, we propose a novel multi-view representation disentangling method that aims to go beyond inductive biases, ensuring both interpretability and generalizability of the resulting representations. Our method is based on the observation that discovering multi-view consistency in advance can determine the disentangling information boundary, leading to a decoupled learning objective. We also found that the consistency can be easily extracted by maximizing the transformation invariance and clustering consistency between views. These observations drive us to propose a two-stage framework. In the first stage, we obtain multi-view consistency by training a consistent encoder to produce semantically-consistent representations across views as well as their corresponding pseudo-labels. In the second stage, we disentangle specificity from comprehensive representations by minimizing the upper bound of mutual information between consistent and comprehensive representations. Finally, we reconstruct the original data by concatenating pseudo-labels and view-specific representations. Our experiments on four multi-view datasets demonstrate that our proposed method outperforms 12 comparison methods in terms of clustering and classification performance. The visualization results also show that the extracted consistency and specificity are compact and interpretable. Our code can be found at https://github.com/Guanzhou-Ke/DMRIB.
updated: Fri Aug 04 2023 13:22:08 GMT+0000 (UTC)
published: Thu Aug 03 2023 09:09:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト