arXiv reaDer
自己監視マルチモーダルドミノ:アルツハイマー病のバイオマーカーを求めて
Self-Supervised Multimodal Domino: in Search of Biomarkers for Alzheimer's Disease
複数のソースからの感覚入力は、堅牢で一貫性のある人間の知覚にとって非常に重要です。さまざまな情報源が補足的な説明要素を提供しています。同様に、調査研究ではマルチモーダル画像データを収集することが多く、それぞれが共有された固有の情報を提供できます。この観察は、強力なマルチモーダル自己教師あり表現学習アルゴリズムの設計を動機付けました。この論文では、単一のフレームワークの下でマルチモーダル自己教師あり学習に関する最近の研究を統合します。ほとんどの自己教師あり方法がモデルコンポーネントのセット間の類似性メトリックを最適化することを観察して、このプロセスを編成するためのすべての合理的な方法の分類法を提案します。まず、おもちゃのマルチモーダルMNISTデータセットでモデルを評価し、次にそれらをアルツハイマー病患者のマルチモーダルニューロイメージングデータセットに適用します。 (1)マルチモーダル対照学習は、そのユニモーダル対応物よりも大きな利点があります。(2)複数の対照目的の特定の構成は、ダウンストリームタスクのパフォーマンスにとって重要です。(3)表現間の類似性の最大化は、ニューラルネットワーク。ダウンストリームのパフォーマンスが低下することがありますが、それでもマルチモーダルな関係が明らかになります。結果は、提案されたアプローチが、線形評価プロトコルを使用したさまざまなデータセットでの正準相関分析(CCA)または専門家混合マルチモーダル変分オートエンコーダー(MMVAE)に基づく以前の自己教師ありエンコーダー-デコーダー手法よりも優れていることを示しています。重要なのは、共同で共有された部分空間を介してモダリティ間の接続を明らかにするための有望なソリューションを見つけることです。これは、ニューロイメージングバイオマーカーの検索における作業を進めるのに役立ちます。
Sensory input from multiple sources is crucial for robust and coherent human perception. Different sources contribute complementary explanatory factors. Similarly, research studies often collect multimodal imaging data, each of which can provide shared and unique information. This observation motivated the design of powerful multimodal self-supervised representation-learning algorithms. In this paper, we unify recent work on multimodal self-supervised learning under a single framework. Observing that most self-supervised methods optimize similarity metrics between a set of model components, we propose a taxonomy of all reasonable ways to organize this process. We first evaluate models on toy multimodal MNIST datasets and then apply them to a multimodal neuroimaging dataset with Alzheimer's disease patients. We find that (1) multimodal contrastive learning has significant benefits over its unimodal counterpart, (2) the specific composition of multiple contrastive objectives is critical to performance on a downstream task, (3) maximization of the similarity between representations has a regularizing effect on a neural network, which can sometimes lead to reduced downstream performance but still reveal multimodal relations. Results show that the proposed approach outperforms previous self-supervised encoder-decoder methods based on canonical correlation analysis (CCA) or the mixture-of-experts multimodal variational autoEncoder (MMVAE) on various datasets with a linear evaluation protocol. Importantly, we find a promising solution to uncover connections between modalities through a jointly shared subspace that can help advance work in our search for neuroimaging biomarkers.
updated: Wed Jun 16 2021 22:01:20 GMT+0000 (UTC)
published: Fri Dec 25 2020 20:28:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト