arXiv reaDer
クロスモーダル検索と合成(X-MRS):共有部分空間のモダリティギャップを埋める
Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in shared subspace
食品の理解を自動化しようとする幅広い方法である計算食品分析(CFA)は、当然、画像、レシピテキスト、準備ビデオ、栄養表示など、特定の食品または料理のマルチモーダル証拠の分析を必要とします。 CFAを可能にするのは、マルチモーダル共有部分空間学習です。これは、特に食品画像とそれに対応するテキストレシピの間で、クロスモーダル検索および/または合成に使用できます。この作業では、共有部分空間学習のためのシンプルでありながら斬新なアーキテクチャを提案します。これは、食品の画像からレシピへの検索の問題に取り組むために使用されます。私たちの提案する方法は、従来の画像埋め込みアーキテクチャと組み合わせた効果的なトランスベースの多言語レシピエンコーダを採用しています。公開Recipe1Mデータセットの実験的分析は、提案された方法によって学習された部分空間が、食品検索において現在の最先端(SoTA)を大幅に上回り、0.64のrecall @ 1を取得することを示しています。さらに、学習した部分空間の表現力を実証するために、レシピの埋め込みを条件とした生成的食品画像合成モデルを提案します。合成された画像は、ペアのサンプルの視覚的外観を効果的に再現でき、画像からレシピへの検索実験で0.68のR @ 1を達成し、テキストレシピのセマンティクスを効果的にキャプチャします。
Computational food analysis (CFA), a broad set of methods that attempt to automate food understanding, naturally requires analysis of multi-modal evidence of a particular food or dish, e.g. images, recipe text, preparation video, nutrition labels, etc. A key to making CFA possible is multi-modal shared subspace learning, which in turn can be used for cross-modal retrieval and/or synthesis, particularly, between food images and their corresponding textual recipes. In this work we propose a simple yet novel architecture for shared subspace learning, which is used to tackle the food image-to-recipe retrieval problem. Our proposed method employs an effective transformer based multilingual recipe encoder coupled with a traditional image embedding architecture. Experimental analysis on the public Recipe1M dataset shows that the subspace learned via the proposed method outperforms the current state-of-the-arts (SoTA) in food retrieval by a large margin, obtaining recall@1 of 0.64. Furthermore, in order to demonstrate the representational power of the learned subspace, we propose a generative food image synthesis model conditioned on the embeddings of recipes. Synthesized images can effectively reproduce the visual appearance of paired samples, achieving R@1 of 0.68 in the image-to-recipe retrieval experiment, thus effectively capturing the semantics of the textual recipe.
updated: Mon Dec 21 2020 22:49:07 GMT+0000 (UTC)
published: Wed Dec 02 2020 17:27:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト