arXiv reaDer
ロバスト ビジョン チャレンジ 2022 用に混合データセットでトレーニングされた改良型 RaftStereo
An Improved RaftStereo Trained with A Mixed Dataset for the Robust Vision Challenge 2022
ステレオ マッチングは、コンピューター ビジョンの基本的な問題です。ディープ ラーニングによる最近の進歩にもかかわらず、ステレオ マッチング モデルを実世界のアプリケーションに展開する場合、ロバスト性の向上は避けられません。ロバスト性を達成するために精巧なモデルを開発するという一般的な慣行とは異なり、トレーニングのために複数の利用可能なデータセットを収集することは、一般化能力を高める安価な方法であると主張します。具体的には、このレポートは、ロバスト ビジョン チャレンジ (iRaftStereo_RVC として示される) のために、7 つのパブリック データセットの混合データセットでトレーニングされた改良された RaftStereo を示します。 Middlebury、KITTI-2015、および ETH3D のトレーニング セットで評価すると、モデルは、人気のある Sceneflow など、1 つのデータセットのみでトレーニングされた対応するモデルよりも優れています。チャレンジの 3 つのデータセットで事前トレーニング済みのモデルを微調整した後、ステレオ リーダーボードで 2 位にランクされ、混合データセットの事前トレーニングの利点を示しています。
Stereo-matching is a fundamental problem in computer vision. Despite recent progress by deep learning, improving the robustness is ineluctable when deploying stereo-matching models to real-world applications. Different from the common practices, i.e., developing an elaborate model to achieve robustness, we argue that collecting multiple available datasets for training is a cheaper way to increase generalization ability. Specifically, this report presents an improved RaftStereo trained with a mixed dataset of seven public datasets for the robust vision challenge (denoted as iRaftStereo_RVC). When evaluated on the training sets of Middlebury, KITTI-2015, and ETH3D, the model outperforms its counterparts trained with only one dataset, such as the popular Sceneflow. After fine-tuning the pre-trained model on the three datasets of the challenge, it ranks at 2nd place on the stereo leaderboard, demonstrating the benefits of mixed dataset pre-training.
updated: Sun Oct 23 2022 17:01:34 GMT+0000 (UTC)
published: Sun Oct 23 2022 17:01:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト