この論文では、畳み込みニューラルネットワークを使用したステレオカメラ画像の深度、オプティカルフロー、および自我運動推定の意味的にガイドされた教師なし学習のためのフレームワークであるUSegSceneを提案します。私たちのフレームワークは、セマンティック情報を活用して、深度およびオプティカルフローマップの正則化、マルチモーダルフュージョン、および動的な剛体の動きを独立したSE(3)変換と見なすオクルージョンフィリングを改善します。さらに、純粋なフォトメトリックマッチングを補完するものとして、セマンティックフィーチャ、ピクセル単位のクラス、および連続する画像間のオブジェクトインスタンスの境界のマッチングを提案します。以前の方法とは対照的に、共有エンコーダーを使用してすべての出力を共同で予測し、タスクドメイン間で情報を渡すことができるネットワークアーキテクチャを提案します。たとえば、オプティカルフローの予測は深度の予測から利益を得ることができます。さらに、ネットワーク内の深度とオプティカルフローのオクルージョンマップを明示的に学習します。これらのマップは、それぞれの領域での予測を改善するために活用されます。人気のあるKITTIデータセットの結果を示し、私たちのアプローチが他の方法よりも大幅に優れていることを示します。
In this paper we propose USegScene, a framework for semantically guided unsupervised learning of depth, optical flow and ego-motion estimation for stereo camera images using convolutional neural networks. Our framework leverages semantic information for improved regularization of depth and optical flow maps, multimodal fusion and occlusion filling considering dynamic rigid object motions as independent SE(3) transformations. Furthermore, complementary to pure photo-metric matching, we propose matching of semantic features, pixel-wise classes and object instance borders between the consecutive images. In contrast to previous methods, we propose a network architecture that jointly predicts all outputs using shared encoders and allows passing information across the task-domains, e.g., the prediction of optical flow can benefit from the prediction of the depth. Furthermore, we explicitly learn the depth and optical flow occlusion maps inside the network, which are leveraged in order to improve the predictions in therespective regions. We present results on the popular KITTI dataset and show that our approach outperforms other methods by a large margin.