FIRE: 食品イメージからレシピ生成まで
FIRE: Food Image to REcipe generation
フードコンピューティングは、近年、優れた学際的な研究分野として浮上しています。フード コンピューティングの野心的な目標は、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェント システムを開発することです。現在の画像からレシピへの手法は検索ベースであり、その成功はデータセットのサイズと多様性、および学習された埋め込みの品質に大きく依存します。一方、強力な注意ベースの視覚モデルと言語モデルの出現により、正確で一般化可能なレシピ生成への有望な道が示されていますが、これについてはまだ広く調査されていません。この論文では、食品コンピューティング領域でのレシピ生成に特化した新しいマルチモーダル手法である FIRE を提案します。これは、入力された食品画像に基づいて食品のタイトル、材料、調理手順を生成します。 FIRE は、BLIP モデルを活用してタイトルを生成し、成分抽出用のデコーダーを備えたビジョン トランスフォーマーを利用し、T5 モデルを採用してタイトルと成分を入力として組み込んだレシピを生成します。 FIRE と大規模な言語モデル プロンプトを統合することでメリットが得られる 2 つの実用的なアプリケーションを紹介します。それは、レシピをユーザーの好みに合わせるためのレシピのカスタマイズと、自動調理プロセスを可能にするためのレシピからコードへの変換です。私たちの実験結果は、私たちが提案したアプローチの有効性を検証し、フードコンピューティングにおける将来の進歩と広範な採用の可能性を強調しています。
Food computing has emerged as a prominent multidisciplinary field of research in recent years. An ambitious goal of food computing is to develop end-to-end intelligent systems capable of autonomously producing recipe information for a food image. Current image-to-recipe methods are retrieval-based and their success depends heavily on the dataset size and diversity, as well as the quality of learned embeddings. Meanwhile, the emergence of powerful attention-based vision and language models presents a promising avenue for accurate and generalizable recipe generation, which has yet to be extensively explored. This paper proposes FIRE, a novel multimodal methodology tailored to recipe generation in the food computing domain, which generates the food title, ingredients, and cooking instructions based on input food images. FIRE leverages the BLIP model to generate titles, utilizes a Vision Transformer with a decoder for ingredient extraction, and employs the T5 model to generate recipes incorporating titles and ingredients as inputs. We showcase two practical applications that can benefit from integrating FIRE with large language model prompting: recipe customization to fit recipes to user preferences and recipe-to-code transformation to enable automated cooking processes. Our experimental findings validate the efficacy of our proposed approach, underscoring its potential for future advancements and widespread adoption in food computing.
updated: Sun May 12 2024 18:45:52 GMT+0000 (UTC)
published: Mon Aug 28 2023 08:14:20 GMT+0000 (UTC)
