arXiv reaDer
大規模なバッチトレーニングを使用したTransformerベースのクロスモーダルレシピ埋め込み
Transformer-based Cross-Modal Recipe Embeddings with Large Batch Training
この論文では、クロスモーダルレシピ検索フレームワーク、ACME〜(敵対的クロスモーダル埋め込み)およびHT〜(階層型トランスフォーマー)に触発された大規模バッチトレーニング用のトランスフォーマーベースのネットワーク(TNLBT)を紹介します。 TNLBTは、レシピの埋め込みから画像を生成しながら、取得タスクを実行することを目的としています。 Hierarchical Transformerベースのレシピテキストエンコーダー、Vision Transformer〜(ViT)ベースのレシピ画像エンコーダー、および敵対的なネットワークアーキテクチャを適用して、レシピテキストと画像のより優れたクロスモーダル埋め込み学習を可能にします。さらに、自己監視学習を使用して、対応する画像がないレシピテキストの豊富な情報を活用します。自己監視学習に関する最近の文献によると、対照的な学習はより大きなバッチサイズの恩恵を受ける可能性があるため、トレーニング中に大きなバッチサイズを採用し、その有効性を検証しました。実験では、提案されたフレームワークは、ベンチマークRecipe1Mでのクロスモーダルレシピ検索と画像生成タスクの両方で、現在の最先端のフレームワークを大幅に上回りました。これは、クロスモーダルレシピ埋め込みでの大規模なバッチトレーニングの有効性を確認した最初の作業です。
In this paper, we present a cross-modal recipe retrieval framework, Transformer-based Network for Large Batch Training (TNLBT), which is inspired by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer). TNLBT aims to accomplish retrieval tasks while generating images from recipe embeddings. We apply the Hierarchical Transformer-based recipe text encoder, the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial network architecture to enable better cross-modal embedding learning for recipe texts and images. In addition, we use self-supervised learning to exploit the rich information in the recipe texts having no corresponding images. Since contrastive learning could benefit from a larger batch size according to the recent literature on self-supervised learning, we adopt a large batch size during training and have validated its effectiveness. In the experiments, the proposed framework significantly outperformed the current state-of-the-art frameworks in both cross-modal recipe retrieval and image generation tasks on the benchmark Recipe1M. This is the first work which confirmed the effectiveness of large batch training on cross-modal recipe embeddings.
updated: Tue May 10 2022 15:03:00 GMT+0000 (UTC)
published: Tue May 10 2022 15:03:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト