Self-Supervised Learning of Domain Invariant Features for Depth Estimation
単一画像深度推定のための教師なし合成から実領域への適応の問題に取り組みます。単一画像の深度推定の重要な構成要素は、RGB画像を入力として受け取り、深度マップを出力として生成するエンコーダ-デコーダタスクネットワークです。この論文では、タスクネットワークにドメイン不変表現を自己監視方式で学習させるための新しいトレーニング戦略を提案します。具体的には、単一ドメインの画像を処理する従来の表現学習から、画像から画像への変換ネットワークを利用して2つの異なるドメインの画像を処理するドメイン不変表現学習に自己監視学習を拡張します。まず、画像から画像への翻訳ネットワークを使用して、合成ドメインと実際のドメイン間でドメイン固有のスタイルを転送します。このスタイルの転送操作により、異なるドメインから同様の画像を取得できます。次に、タスクネットワークとシャムネットワークを異なるドメインからの同じ画像で共同でトレーニングして、タスクネットワークのドメイン不変性を取得します。最後に、ラベル付きの合成データとラベルなしの実世界データを使用して、タスクネットワークを微調整します。私たちのトレーニング戦略は、実世界のドメインで改善された一般化機能をもたらします。深度推定用の2つの一般的なデータセット、KITTIとMake3Dに対して広範な評価を実行します。結果は、提案された方法がすべてのメトリックで最先端を上回っていることを示しています。たとえば、KITTIのSq Relでは14.7%です。ソースコードとモデルの重みが利用可能になります。
We tackle the problem of unsupervised synthetic-to-real domain adaptation for single image depth estimation. An essential building block of single image depth estimation is an encoder-decoder task network that takes RGB images as input and produces depth maps as output. In this paper, we propose a novel training strategy to force the task network to learn domain invariant representations in a selfsupervised manner. Specifically, we extend self-supervised learning from traditional representation learning, which works on images from a single domain, to domain invariant representation learning, which works on images from two different domains by utilizing an image-to-image translation network. Firstly, we use an image-to-image translation network to transfer domain-specific styles between synthetic and real domains. This style transfer operation allows us to obtain similar images from the different domains. Secondly, we jointly train our task network and Siamese network with the same images from the different domains to obtain domain invariance for the task network. Finally, we fine-tune the task network using labeled synthetic and unlabeled realworld data. Our training strategy yields improved generalization capability in the real-world domain. We carry out an extensive evaluation on two popular datasets for depth estimation, KITTI and Make3D. The results demonstrate that our proposed method outperforms the state-of-the-art on all metrics, e.g. by 14.7% on Sq Rel on KITTI. The source code and model weights will be made available.
