arXiv reaDer
On the Benefit of Adversarial Training for Monocular Depth Estimation
 このペーパーでは、単眼の深度推定のタスクに敵対的トレーニングを追加する利点について説明します。モデルは、ステレオペアの画像の自己監視設定でトレーニングできます。この場合、深度(視差)は、右から左への画像再構築パイプラインの中間結果です。画像再構成と視差予測の品質のために、L1画像再構成損失と左右視差の滑らかさを含むさまざまな損失の組み合わせが使用されます。これらは局所的なピクセル単位の損失ですが、深度予測にはグローバルな一貫性が必要です。したがって、自己監視ネットワークを拡張して、実際の画像から再構成された(偽の)画像を区別する弁別子を含めることにより、生成的敵対ネットワーク(GAN)になります。異なるピクセル単位の再構成損失と組み合わせて、バニラGAN、LSGAN、およびWasserstein GANを評価します。広範な実験的評価に基づいて、再構築損失があまり制約されていない場合にのみ、敵対訓練が有益であると結論付けます。グローバルな一貫性を促進するため、敵対的トレーニングは有望であるように見えますが、非敵対的トレーニングは、制約付き再構築損失がバッチ正規化と組み合わせて使用される場合、GANでトレーニングされたどの方法よりも優れています(または同等です)。実験評価の洞察に基づいて、バッチ正規化とさまざまな出力スケールを使用して、最先端の単眼深度推定結果を取得します。
In this paper we address the benefit of adding adversarial training to the task of monocular depth estimation. A model can be trained in a self-supervised setting on stereo pairs of images, where depth (disparities) are an intermediate result in a right-to-left image reconstruction pipeline. For the quality of the image reconstruction and disparity prediction, a combination of different losses is used, including L1 image reconstruction losses and left-right disparity smoothness. These are local pixel-wise losses, while depth prediction requires global consistency. Therefore, we extend the self-supervised network to become a Generative Adversarial Network (GAN), by including a discriminator which should tell apart reconstructed (fake) images from real images. We evaluate Vanilla GANs, LSGANs and Wasserstein GANs in combination with different pixel-wise reconstruction losses. Based on extensive experimental evaluation, we conclude that adversarial training is beneficial if and only if the reconstruction loss is not too constrained. Even though adversarial training seems promising because it promotes global consistency, non-adversarial training outperforms (or is on par with) any method trained with a GAN when a constrained reconstruction loss is used in combination with batch normalisation. Based on the insights of our experimental evaluation we obtain state-of-the art monocular depth estimation results by using batch normalisation and different output scales.
updated: Tue Oct 29 2019 15:57:24 GMT+0000 (UTC)
published: Tue Oct 29 2019 15:57:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト