arXiv reaDer
マルチモーダル非線形埋め込みの学習:パフォーマンスの限界とアルゴリズム
Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an Algorithm
複数のモダリティでのデータ収集の低次元表現を学習するための多くのアプローチが文献に存在しますが、以前は見られなかったデータへのマルチモーダル非線形埋め込みの一般化可能性はかなり見過ごされています。この作業では、最初に、監視された設定でマルチモーダル非線形埋め込みを学習する理論的分析を示します。私たちのパフォーマンスの限界は、マルチモーダル分類および検索問題の一般化を成功させるために、埋め込みをデータ空間全体に拡張する補間関数の規則性が、クラス間分離およびクロスモーダルアライメント基準と同じくらい重要であることを示しています。次に、これらの理論的発見に動機付けられたマルチモーダル非線形表現学習アルゴリズムを提案します。ここでは、トレーニングサンプルの埋め込みが、補間器のLipschitz規則性と共同で最適化されます。最近のマルチモーダルおよびシングルモーダル学習アルゴリズムとの実験的比較は、提案された方法がマルチモーダル画像分類およびクロスモーダル画像テキスト検索アプリケーションにおいて有望な性能をもたらすことを示唆している。
While many approaches exist in the literature to learn low-dimensional representations for data collections in multiple modalities, the generalizability of multi-modal nonlinear embeddings to previously unseen data is a rather overlooked subject. In this work, we first present a theoretical analysis of learning multi-modal nonlinear embeddings in a supervised setting. Our performance bounds indicate that for successful generalization in multi-modal classification and retrieval problems, the regularity of the interpolation functions extending the embedding to the whole data space is as important as the between-class separation and cross-modal alignment criteria. We then propose a multi-modal nonlinear representation learning algorithm that is motivated by these theoretical findings, where the embeddings of the training samples are optimized jointly with the Lipschitz regularity of the interpolators. Experimental comparison to recent multi-modal and single-modal learning algorithms suggests that the proposed method yields promising performance in multi-modal image classification and cross-modal image-text retrieval applications.
updated: Thu Dec 24 2020 22:01:04 GMT+0000 (UTC)
published: Wed Jun 03 2020 15:22:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト