arXiv reaDer
ローカル相互情報量の最大化によるマルチモーダル表現学習
Multimodal Representation Learning via Maximization of Local Mutual Information
画像とテキストの局所的な特徴間の相互情報量を最大化することにより、表現学習アプローチを提案し、実証します。このアプローチの目標は、画像内の調査結果を説明するフリーテキストに含まれる豊富な情報を利用して、有用な画像表現を学習することです。私たちの方法は、結果として得られる表現が高いローカル相互情報量を示すように促すことにより、画像エンコーダーとテキストエンコーダーをトレーニングします。ニューラルネットワーク弁別器との相互情報量推定における最近の進歩を利用します。ローカル相互情報量の合計は、通常、グローバル相互情報量の下限であると私たちは主張します。ダウンストリーム画像分類タスクでの実験結果は、画像テキスト表現学習にローカル特徴を使用することの利点を示しています。
We propose and demonstrate a representation learning approach by maximizing the mutual information between local features of images and text. The goal of this approach is to learn useful image representations by taking advantage of the rich information contained in the free text that describes the findings in the image. Our method trains image and text encoders by encouraging the resulting representations to exhibit high local mutual information. We make use of recent advances in mutual information estimation with neural network discriminators. We argue that the sum of local mutual information is typically a lower bound on the global mutual information. Our experimental results in the downstream image classification tasks demonstrate the advantages of using local features for image-text representation learning.
updated: Sat Jul 10 2021 03:11:55 GMT+0000 (UTC)
published: Mon Mar 08 2021 03:59:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト