屋外シーン用のマルチモーダル大規模データセットは、主に都市部の運転問題向けに設計されています。シーンは高度に構造化されており、庭園や公園などの自然中心のシーンで見られるシナリオとは意味的に異なります。農業やガーデニングなどの自然指向のアプリケーションの機械学習手法を促進するために、囲まれた庭のシーン(EDEN)のマルチモーダル合成データセットを提案します。データセットには、100を超える庭園モデルからキャプチャされた300Kを超える画像が含まれています。各画像には、セマンティックセグメンテーション、深度、表面法線、固有色、オプティカルフローなど、さまざまな低レベル/高レベルの視覚モダリティが注釈として付けられています。コンピュータービジョンの2つの重要なタスクである、セマンティックセグメンテーションと単眼深度予測の最先端の方法に関する実験結果は、構造化されていない自然シーンのデータセットに対するディープネットワークの事前トレーニングのプラスの影響を示しています。データセットと関連資料はhttps://lhoangan.github.io/edenで入手できます。
Multimodal large-scale datasets for outdoor scenes are mostly designed for urban driving problems. The scenes are highly structured and semantically different from scenarios seen in nature-centered scenes such as gardens or parks. To promote machine learning methods for nature-oriented applications, such as agriculture and gardening, we propose the multimodal synthetic dataset for Enclosed garDEN scenes (EDEN). The dataset features more than 300K images captured from more than 100 garden models. Each image is annotated with various low/high-level vision modalities, including semantic segmentation, depth, surface normals, intrinsic colors, and optical flow. Experimental results on the state-of-the-art methods for semantic segmentation and monocular depth prediction, two important tasks in computer vision, show positive impact of pre-training deep networks on our dataset for unstructured natural scenes. The dataset and related materials will be available at https://lhoangan.github.io/eden.