arXiv reaDer
ディープコンセンサスラーニング
Deep Consensus Learning
生成的学習と識別的学習の両方が、最近、ディープニューラルネットワーク(DNN)を使用して目覚ましい進歩を遂げています。構造化入力合成と構造化出力予測の問題(たとえば、それぞれレイアウトから画像への合成と画像セマンティックセグメンテーション)の場合、それらはしばしば別々に研究されます。この論文は、共同レイアウトから画像への合成および弱教師あり画像セマンティックセグメンテーションのためのディープコンセンサス学習(DCL)を提案します。前者は最近提案されたLostGANアプローチによって実現され、後者はLostGANの2人用ゲームに参加する3番目のプレーヤーとして推論ネットワークを導入することによって実現されます。 2つの深いコンセンサスマッピングを利用して、3つのネットワークをエンドツーエンドでトレーニングしやすくします。入力レイアウト(オブジェクト境界ボックスのリスト)が与えられると、ジェネレーターはマスク(ラベルマップ)を生成し、それを使用して画像の合成を支援します。推論ネットワークは、合成された画像のマスクを推論します。次に、ジェネレータによって生成されたマスクと推論ネットワークによって推論されたマスクとの間の潜在的なコンセンサスが測定されます。入力レイアウトに対応する実像の場合、そのマスクも推論ネットワークによって計算され、ジェネレータによって実像を再構築するために使用されます。次に、データコンセンサスが実際の画像とその再構成された画像の間で測定されます。弁別器は、実像、その再構成画像、および合成画像の実像スコアを計算することにより、依然として敵の役割を果たします。実験では、DCLはCOCO-Stuffデータセットでテストされます。説得力のあるレイアウトから画像への合成結果と、弱く監視された画像のセマンティックセグメンテーション結果を取得します。
Both generative learning and discriminative learning have recently witnessed remarkable progress using Deep Neural Networks (DNNs). For structured input synthesis and structured output prediction problems (e.g., layout-to-image synthesis and image semantic segmentation respectively), they often are studied separately. This paper proposes deep consensus learning (DCL) for joint layout-to-image synthesis and weakly-supervised image semantic segmentation. The former is realized by a recently proposed LostGAN approach, and the latter by introducing an inference network as the third player joining the two-player game of LostGAN. Two deep consensus mappings are exploited to facilitate training the three networks end-to-end: Given an input layout (a list of object bounding boxes), the generator generates a mask (label map) and then use it to help synthesize an image. The inference network infers the mask for the synthesized image. Then, the latent consensus is measured between the mask generated by the generator and the one inferred by the inference network. For the real image corresponding to the input layout, its mask also is computed by the inference network, and then used by the generator to reconstruct the real image. Then, the data consensus is measured between the real image and its reconstructed image. The discriminator still plays the role of an adversary by computing the realness scores for a real image, its reconstructed image and a synthesized image. In experiments, our DCL is tested in the COCO-Stuff dataset. It obtains compelling layout-to-image synthesis results and weakly-supervised image semantic segmentation results.
updated: Mon Mar 15 2021 15:51:14 GMT+0000 (UTC)
published: Mon Mar 15 2021 15:51:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト