ドメインの違いと複数のデータセットにわたる不均衡な視差の分布により、現在のステレオ マッチングのアプローチは通常、特定のデータセットに限定されており、他のデータセットにはあまり一般化できません。このようなドメイン シフトの問題は通常、高価なターゲット ドメインのグラウンド トゥルース データを大幅に適応させることで解決されますが、実際の設定では簡単に取得することはできません。この論文では、ロバストなステレオマッチングのための不確実性推定を詳しく掘り下げることを提案します。具体的には、視差分布のバランスをとるために、ピクセルレベルの不確実性推定を採用して、次の段階の視差検索空間を適応的に調整します。これにより、ネットワークが、可能性の低い対応の空間を段階的に排除します。次に、限られたグラウンド トゥルース データを解決するために、事前トレーニングされたモデルを新しい領域に適応させるために不確実性ベースの擬似ラベルが提案されます。そこでは、不確実性の高いものをフィルタリングするためにピクセル レベルおよびエリア レベルの不確実性推定が提案されます。予測された視差マップのピクセルを抽出し、ドメイン ギャップを調整するためのスパースながら信頼性の高い疑似ラベルを生成します。実験的に、私たちの方法は強力なクロスドメイン、適応、共同一般化を示し、ロバストビジョンチャレンジ2020のステレオタスクで1位を獲得しました。さらに、不確実性ベースの擬似ラベルは教師なしで単眼深度推定ネットワークを訓練するように拡張できます。教師ありメソッドと同等のパフォーマンスを達成することさえできます。コードは https://github.com/gallenszl/UCFNet で入手できます。
Due to the domain differences and unbalanced disparity distribution across multiple datasets, current stereo matching approaches are commonly limited to a specific dataset and generalize poorly to others. Such domain shift issue is usually addressed by substantial adaptation on costly target-domain ground-truth data, which cannot be easily obtained in practical settings. In this paper, we propose to dig into uncertainty estimation for robust stereo matching. Specifically, to balance the disparity distribution, we employ a pixel-level uncertainty estimation to adaptively adjust the next stage disparity searching space, in this way driving the network progressively prune out the space of unlikely correspondences. Then, to solve the limited ground truth data, an uncertainty-based pseudo-label is proposed to adapt the pre-trained model to the new domain, where pixel-level and area-level uncertainty estimation are proposed to filter out the high-uncertainty pixels of predicted disparity maps and generate sparse while reliable pseudo-labels to align the domain gap. Experimentally, our method shows strong cross-domain, adapt, and joint generalization and obtains 1st place on the stereo task of Robust Vision Challenge 2020. Additionally, our uncertainty-based pseudo-labels can be extended to train monocular depth estimation networks in an unsupervised way and even achieves comparable performance with the supervised methods. The code will be available at https://github.com/gallenszl/UCFNet.