arXiv reaDer
IRS:視差と表面法線推定のためのディープモデルをトレーニングするための大規模な自然主義的な屋内ロボティクスステレオデータセット
IRS: A Large Naturalistic Indoor Robotics Stereo Dataset to Train Deep Models for Disparity and Surface Normal Estimation
屋内ロボティクスのローカリゼーション、ナビゲーション、およびインタラクションは、シーンの理解と再構築に大きく依存しています。通常、幾何学的制約を明示的に導入しない単眼視と比較して、立体視ベースのスキームは、表面法線や深さ/視差などの正確な幾何情報を生成するために、より有望で堅牢です。さらに、大規模なデータセットでトレーニングされた深層学習モデルは、多くのステレオビジョンタスクで優れたパフォーマンスを示しています。ただし、既存のステレオデータセットには、高品質の表面法線と視差グラウンドトゥルースが含まれていることはめったにありません。これは、屋内シーンの将来のディープモデルをトレーニングするという要求をほとんど満たしていません。この目的のために、100Kを超えるステレオRGB画像と高品質の表面法線および視差マップを備えた大規模な合成であるが自然主義的な屋内ロボティクスステレオ(IRS)データセットを紹介します。カスタマイズされたレンダリングエンジンの高度なレンダリング技術を活用して、データセットは実際にキャプチャされた画像にかなり近く、明るさの変化、光の反射/透過、レンズフレア、鮮やかな影などのいくつかの視覚効果をカバーします。屋内シーンの典型的な視覚属性を説明するための既存のステレオデータセットを使用したIRSのデータ分布。さらに、表面法線推定のための2段階の深層モデルであるDTN-Netを紹介します。広範な実験は、視差推定のための深いモデルのトレーニングにおけるIRSの利点と有効性を示しており、DTN-Netは、既存の方法と比較して、通常の推定のための最先端の結果を提供します。
Indoor robotics localization, navigation, and interaction heavily rely on scene understanding and reconstruction. Compared to the monocular vision which usually does not explicitly introduce any geometrical constraint, stereo vision-based schemes are more promising and robust to produce accurate geometrical information, such as surface normal and depth/disparity. Besides, deep learning models trained with large-scale datasets have shown their superior performance in many stereo vision tasks. However, existing stereo datasets rarely contain the high-quality surface normal and disparity ground truth, which hardly satisfies the demand of training a prospective deep model for indoor scenes. To this end, we introduce a large-scale synthetic but naturalistic indoor robotics stereo (IRS) dataset with over 100K stereo RGB images and high-quality surface normal and disparity maps. Leveraging the advanced rendering techniques of our customized rendering engine, the dataset is considerably close to the real-world captured images and covers several visual effects, such as brightness changes, light reflection/transmission, lens flare, vivid shadow, etc. We compare the data distribution of IRS with existing stereo datasets to illustrate the typical visual attributes of indoor scenes. Besides, we present DTN-Net, a two-stage deep model for surface normal estimation. Extensive experiments show the advantages and effectiveness of IRS in training deep models for disparity estimation, and DTN-Net provides state-of-the-art results for normal estimation compared to existing methods.
updated: Fri Mar 26 2021 13:58:20 GMT+0000 (UTC)
published: Fri Dec 20 2019 07:55:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト