マルチモーダル学習は主に、ダウンストリーム タスクのパフォーマンスを向上させるために、さまざまなモダリティで大規模なモデルを学習し、特徴表現を融合することに重点を置いてきました。この作業では、この傾向から迂回し、次の質問をすることによって、マルチモーダル データの本質的な性質を研究します。 2) 潜在表現が捉えるものを数学的にも視覚的にも直感的に理解できるか? 1) に答えるために、事前にトレーニングされた大規模なネットワークに組み込むことができる、一般的で軽量なフレームワークである Multimodal Understanding Through Correlation Maximization and Minimization (MUCMM) を提案します。 MUCMM は共通表現と個別表現の両方を学習します。共通の表現は、モダリティ間の共通点を捉えています。個々の表現は、モダリティのユニークな側面を捉えています。 2)に答えるために、学習した共通構造と個別構造を要約し、入力に対するスコア勾配を視覚化して、さまざまな表現がキャプチャするものを視覚的に識別する新しいスコアを提案します。さらに、線形設定で計算された勾配の数学的直観を提供し、さまざまな実験を通じてアプローチの有効性を実証します。
Multimodal learning has mainly focused on learning large models on, and fusing feature representations from, different modalities for better performances on downstream tasks. In this work, we take a detour from this trend and study the intrinsic nature of multimodal data by asking the following questions: 1) Can we learn more structured latent representations of general multimodal data?; and 2) can we intuitively understand, both mathematically and visually, what the latent representations capture? To answer 1), we propose a general and lightweight framework, Multimodal Understanding Through Correlation Maximization and Minimization (MUCMM), that can be incorporated into any large pre-trained network. MUCMM learns both the common and individual representations. The common representations capture what is common between the modalities; the individual representations capture the unique aspect of the modalities. To answer 2), we propose novel scores that summarize the learned common and individual structures and visualize the score gradients with respect to the input, visually discerning what the different representations capture. We further provide mathematical intuitions of the computed gradients in a linear setting, and demonstrate the effectiveness of our approach through a variety of experiments.