深度補完を備えたステレオ推定のための正確で軽量な畳み込みニューラル ネットワークを提案します。この方法を、深度補完を備えた完全畳み込み変形可能類似性ネットワーク (FCDSN-DC) と呼びます。この方法は、特徴抽出器を改善し、非常に正確な類似度関数をトレーニングするためのネットワーク構造と、一貫性のない視差推定を埋めるためのネットワーク構造を追加することにより、FC-DCNN を拡張します。メソッド全体は 3 つの部分で構成されます。最初の部分は、修正された画像ペアの表現機能を計算する、完全に畳み込み密に接続されたレイヤーで構成されます。ネットワークの 2 番目の部分は、この学習された特徴間の非常に正確な類似関数を学習します。結果の精度をさらに向上させるために、最後に変形可能な畳み込みブロックを備えた密に接続された畳み込みレイヤーで構成されています。このステップの後、最初の視差マップが作成され、不一致点を削除するために左右の一貫性チェックが実行されます。ネットワークの最後の部分は、この入力を対応する左の RGB 画像と共に使用して、欠落している測定値を埋めるネットワークをトレーニングします。一貫性のある深さの推定値が無効なポイントの周りに収集され、欠落している値を回復するために RGB ポイントと共に浅い CNN ネットワーク構造に解析されます。実世界の屋内および屋外シーンに挑戦する方法、特にミドルベリー、KITTI、および ETH3D が競争力のある結果を生み出すかどうかを評価します。さらに、この方法はよく一般化され、さらなるトレーニングを必要とせずに多くのアプリケーションに適していることを示しています。完全なフレームワークのコードは、https://github.com/thedodo/FCDSN-DC で入手できます。
We propose an accurate and lightweight convolutional neural network for stereo estimation with depth completion. We name this method fully-convolutional deformable similarity network with depth completion (FCDSN-DC). This method extends FC-DCNN by improving the feature extractor, adding a network structure for training highly accurate similarity functions and a network structure for filling inconsistent disparity estimates. The whole method consists of three parts. The first part consists of fully-convolutional densely connected layers that computes expressive features of rectified image pairs. The second part of our network learns highly accurate similarity functions between this learned features. It consists of densely-connected convolution layers with a deformable convolution block at the end to further improve the accuracy of the results. After this step an initial disparity map is created and the left-right consistency check is performed in order to remove inconsistent points. The last part of the network then uses this input together with the corresponding left RGB image in order to train a network that fills in the missing measurements. Consistent depth estimations are gathered around invalid points and are parsed together with the RGB points into a shallow CNN network structure in order to recover the missing values. We evaluate our method on challenging real world indoor and outdoor scenes, in particular Middlebury, KITTI and ETH3D were it produces competitive results. We furthermore show that this method generalizes well and is well suited for many applications without the need of further training. The code of our full framework is available at: https://github.com/thedodo/FCDSN-DC