フードレシピは、特定の料理を準備するための指示の順序付きセットです。視覚的な観点から見ると、すべての指示ステップは、余分なオブジェクトを追加する(たとえば、材料を追加する)か、既存のオブジェクトの外観を変更する(たとえば、料理を調理する)ことによって、料理の外観を変更する方法と見なすことができます。このペーパーでは、この段階的な手順を反映した生成モデルを構築することにより、ピザの製造方法を機械に教えることを目指しています。そのために、特定の成分を追加または削除できる構成可能なモジュール操作を学習します。各オペレーターは、Generative Adversarial Network(GAN)として設計されています。画像レベルの監視が弱い場合、オペレータは既存の画像に追加または削除する必要がある視覚的なレイヤーを生成するように訓練されます。提案されたモデルは、適切な順序で対応する削除モジュールを順次適用することにより、画像をレイヤーの順序付きシーケンスに分解することができます。合成および本物のピザ画像の実験結果は、提案モデルが以下を実行できることを示しています:(1)ピザのトッピングを弱く監視された方法でセグメント化、(2)それらの下に隠れているものを明らかにすることによってそれらを削除(すなわち、修復)、および(3)深さの順序付け監督なしでトッピングの順序付けを推測します。コード、データ、モデルはオンラインで入手できます。
A food recipe is an ordered set of instructions for preparing a particular dish. From a visual perspective, every instruction step can be seen as a way to change the visual appearance of the dish by adding extra objects (e.g., adding an ingredient) or changing the appearance of the existing ones (e.g., cooking the dish). In this paper, we aim to teach a machine how to make a pizza by building a generative model that mirrors this step-by-step procedure. To do so, we learn composable module operations which are able to either add or remove a particular ingredient. Each operator is designed as a Generative Adversarial Network (GAN). Given only weak image-level supervision, the operators are trained to generate a visual layer that needs to be added to or removed from the existing image. The proposed model is able to decompose an image into an ordered sequence of layers by applying sequentially in the right order the corresponding removing modules. Experimental results on synthetic and real pizza images demonstrate that our proposed model is able to: (1) segment pizza toppings in a weaklysupervised fashion, (2) remove them by revealing what is occluded underneath them (i.e., inpainting), and (3) infer the ordering of the toppings without any depth ordering supervision. Code, data, and models are available online.