arXiv reaDer
目に見えない複雑なシーンの生成:私たちはまだそこにいますか?
Generating unseen complex scenes: are we there yet?
最近の複雑なシーン条件付き生成モデルは、ますます魅力的なシーンを生成しますが、どのモデルがより優れたパフォーマンスを発揮するのか、そしてその理由を評価するのは非常に困難です。これは多くの場合、モデルがさまざまなデータ分割に適合するようにトレーニングされ、独自の実験設定を定義していることが原因です。この論文では、複雑なシーンの条件付き生成モデルを比較する方法論を提案し、各モデルが(1)トレーニング分布に適合し、したがって、見られた条件付けでうまく機能する能力を評価する詳細な分析を提供します。見えているオブジェクトの組み合わせで構成される見えない条件に一般化し、(3)見えないオブジェクトの組み合わせで構成される見えない条件に一般化します。その結果、最近の方法では、見られた条件が与えられたときに認識可能なシーンを生成し、構成性を利用して、見られたオブジェクトの組み合わせで見られない条件に一般化できることがわかりました。ただし、すべてのメソッドは、目に見えないオブジェクトの組み合わせで構成される条件付けから画像を生成するように求められると、顕著な画質の低下に悩まされます。さらに、分析を通じて、さまざまなパイプラインコンポーネントの利点を特定し、(1)インスタンスごとの空間条件付けの正規化を通じて構成性を促進すると、両方のタイプの目に見えない条件付けに対する堅牢性が向上すること、(2)シーンなどの意味的に認識された損失を使用することを発見しました。 -グラフの知覚的類似性は、生成プロセスのいくつかの次元を改善するのに役立ちます。(3)生成されたマスクの品質と個々のオブジェクトの品質を向上させることは、両方のタイプの目に見えない条件付けに対する堅牢性を改善するための重要なステップです。
Although recent complex scene conditional generation models generate increasingly appealing scenes, it is very hard to assess which models perform better and why. This is often due to models being trained to fit different data splits, and defining their own experimental setups. In this paper, we propose a methodology to compare complex scene conditional generation models, and provide an in-depth analysis that assesses the ability of each model to (1) fit the training distribution and hence perform well on seen conditionings, (2) to generalize to unseen conditionings composed of seen object combinations, and (3) generalize to unseen conditionings composed of unseen object combinations. As a result, we observe that recent methods are able to generate recognizable scenes given seen conditionings, and exploit compositionality to generalize to unseen conditionings with seen object combinations. However, all methods suffer from noticeable image quality degradation when asked to generate images from conditionings composed of unseen object combinations. Moreover, through our analysis, we identify the advantages of different pipeline components, and find that (1) encouraging compositionality through instance-wise spatial conditioning normalizations increases robustness to both types of unseen conditionings, (2) using semantically aware losses such as the scene-graph perceptual similarity helps improve some dimensions of the generation process, and (3) enhancing the quality of generated masks and the quality of the individual objects are crucial steps to improve robustness to both types of unseen conditionings.
updated: Mon Dec 07 2020 20:04:39 GMT+0000 (UTC)
published: Mon Dec 07 2020 20:04:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト