arXiv reaDer
クロスモーダル検索におけるペアデータからの解きほぐされた潜在因子の学習:暗黙の識別可能なVAEアプローチ
Learning Disentangled Latent Factors from Paired Data in Cross-Modal Retrieval: An Implicit Identifiable VAE Approach
クロスモーダル検索でペアのバイモーダルデータ間で共有される根本的な解きほぐされた潜在因子を学習する問題に対処します。両方のモダリティのデータは複雑で構造化されており、高次元(画像やテキストなど)であると想定しています。そのため、Variational Autoencoder(VAE)などの従来のディープオートエンコーディング潜在変数モデルでは、正確性が難しいことがよくあります。デコーダートレーニングまたは現実的な合成。最適にトレーニングされていないデコーダーは、真の要因を特定するモデルの機能を損なう可能性があります。この論文では、低次元埋め込み関数のヤコビ正則化によって達成される暗黙のエンコーダ反転を介して、潜在変数モデルから周囲データデコードモジュールを完全に削除する暗黙デコーダの新しいアイデアを提案します。最近の識別可能なVAE(IVAE)モデルから動機付けられて、クエリモダリティデータを条件付け補助入力として組み込むように変更します。これにより、モデルの真のパラメーターが特定の規則性条件下で識別できることを証明できます。真の因子が完全に/部分的に利用可能なさまざまなデータセットでテストされたモデルは、因子を正確に識別し、従来のエンコーダー-デコーダー潜在変数モデルを大幅に上回っています。また、大規模な食品画像/レシピデータセットであるRecipe1Mでモデルをテストします。このデータセットでは、アプローチによって学習された要素が、風味、水っぽさ、緑など、広く合意されている最も顕著な食品要素と非常に一致しています。
We deal with the problem of learning the underlying disentangled latent factors that are shared between the paired bi-modal data in cross-modal retrieval. Our assumption is that the data in both modalities are complex, structured, and high dimensional (e.g., image and text), for which the conventional deep auto-encoding latent variable models such as the Variational Autoencoder (VAE) often suffer from difficulty of accurate decoder training or realistic synthesis. A suboptimally trained decoder can potentially harm the model's capability of identifying the true factors. In this paper we propose a novel idea of the implicit decoder, which completely removes the ambient data decoding module from a latent variable model, via implicit encoder inversion that is achieved by Jacobian regularization of the low-dimensional embedding function. Motivated from the recent Identifiable VAE (IVAE) model, we modify it to incorporate the query modality data as conditioning auxiliary input, which allows us to prove that the true parameters of the model can be identified under some regularity conditions. Tested on various datasets where the true factors are fully/partially available, our model is shown to identify the factors accurately, significantly outperforming conventional encoder-decoder latent variable models. We also test our model on the Recipe1M, the large-scale food image/recipe dataset, where the learned factors by our approach highly coincide with the most pronounced food factors that are widely agreed on, including savoriness, wateriness, and greenness.
updated: Tue Dec 01 2020 17:47:50 GMT+0000 (UTC)
published: Tue Dec 01 2020 17:47:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト