実際の物体深度のリアルタイム推定は、3D再構成、シーンの理解、状態評価などのさまざまな自律システムタスクに不可欠なモジュールです。機械学習の過去10年間で、コンピュータービジョンタスクへの深層学習手法の広範な展開により、単純なRGBモダリティから現実的な深さ合成を実現することに成功したアプローチが生まれました。これらのモデルのほとんどは、ペアのRGB深度データおよび/またはビデオシーケンスとステレオ画像の可用性に基づいています。シーケンス、ステレオデータ、RGB深度のペアがないため、深度推定は、これまでほとんど調査されていなかった完全に教師なしの単一画像転送の問題になります。この研究は、完全に教師なしの単発深度推定を確立するために、生成ニューラルネットワークの分野における最近の進歩に基づいています。 RGBから深度および深度からRGBへの転送用の2つのジェネレーターが実装され、Wasserstein-1距離、新しい知覚再構成項、および手作りの画像フィルターを使用して同時に最適化されます。工業用表面深度データ、Texas 3D顔認識データベース、人間のポートレートのCelebAMask-HQデータベース、および体の深度を記録するSURREALデータセットを使用して、モデルを包括的に評価します。各評価データセットについて、提案された方法は、最先端の単一画像転送方法と比較して、深度精度の大幅な向上を示しています。
Real-time estimation of actual object depth is an essential module for various autonomous system tasks such as 3D reconstruction, scene understanding and condition assessment. During the last decade of machine learning, extensive deployment of deep learning methods to computer vision tasks has yielded approaches that succeed in achieving realistic depth synthesis out of a simple RGB modality. Most of these models are based on paired RGB-depth data and/or the availability of video sequences and stereo images. The lack of sequences, stereo data and RGB-depth pairs makes depth estimation a fully unsupervised single-image transfer problem that has barely been explored so far. This study builds on recent advances in the field of generative neural networks in order to establish fully unsupervised single-shot depth estimation. Two generators for RGB-to-depth and depth-to-RGB transfer are implemented and simultaneously optimized using the Wasserstein-1 distance, a novel perceptual reconstruction term and hand-crafted image filters. We comprehensively evaluate the models using industrial surface depth data as well as the Texas 3D Face Recognition Database, the CelebAMask-HQ database of human portraits and the SURREAL dataset that records body depth. For each evaluation dataset the proposed method shows a significant increase in depth accuracy compared to state-of-the-art single-image transfer methods.