生成モデリングは最近、コンピュータービジョンで大きな期待を示していますが、視覚的にリアルな画像の合成に主に焦点を当てています。この論文では、共有可能な特徴表現のマルチタスク学習に動機付けられて、さまざまな視覚認識タスク全体で役立つ共有生成モデルを学習するという新しい問題について考察します。これに対応して、識別マルチタスクネットワークを生成ネットワークと結合することにより、一般的なマルチタスク指向の生成モデリング(MGM)フレームワークを提案します。マルチタスクシナリオでRGB画像とピクセルレベルの注釈の両方を合成することは困難ですが、私たちのフレームワークでは、合成された画像を弱い注釈(つまり、画像レベルのシーンラベル)のみと組み合わせて使用し、複数の視覚的なタスクを容易にすることができます。 NYUv2やTaskonomyを含む、やりがいのあるマルチタスクベンチマークの実験的評価は、MGMフレームワークがすべてのタスクのパフォーマンスを大幅に改善し、常に最先端のマルチタスクアプローチを上回っていることを示しています。
Generative modeling has recently shown great promise in computer vision, but it has mostly focused on synthesizing visually realistic images. In this paper, motivated by multi-task learning of shareable feature representations, we consider a novel problem of learning a shared generative model that is useful across various visual perception tasks. Correspondingly, we propose a general multi-task oriented generative modeling (MGM) framework, by coupling a discriminative multi-task network with a generative network. While it is challenging to synthesize both RGB images and pixel-level annotations in multi-task scenarios, our framework enables us to use synthesized images paired with only weak annotations (i.e., image-level scene labels) to facilitate multiple visual tasks. Experimental evaluation on challenging multi-task benchmarks, including NYUv2 and Taskonomy, demonstrates that our MGM framework improves the performance of all the tasks by large margins, consistently outperforming state-of-the-art multi-task approaches.