arXiv reaDer
Hypersim:ホリスティックな屋内シーンを理解するためのフォトリアリスティックな合成データセット
Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding
多くの基本的なシーン理解タスクでは、実際の画像からピクセルごとのグラウンドトゥルースラベルを取得することは困難または不可能です。全体的な屋内シーンを理解するためのフォトリアリスティックな合成データセットであるHypersimを導入することで、この課題に対処します。データセットを作成するために、プロのアーティストによって作成された合成シーンの大規模なリポジトリを活用し、ピクセルごとの詳細なラベルと対応するグラウンドトゥルースジオメトリを使用して、461の屋内シーンの77,400の画像を生成します。私たちのデータセット:(1)公的に利用可能な3Dアセットのみに依存しています。 (2)すべてのシーンの完全なシーンジオメトリ、マテリアル情報、および照明情報が含まれます。 (3)すべての画像の高密度のピクセルごとのセマンティックインスタンスセグメンテーションと完全なカメラ情報が含まれます。 (4)すべての画像を、拡散反射率、拡散照明、およびビューに依存する照明効果をキャプチャする非拡散残余項に因数分解します。シーン、オブジェクト、ピクセルのレベルでデータセットを分析し、費用、計算時間、注釈の労力の観点からコストを分析します。驚くべきことに、人気のあるオープンソースの自然言語処理モデルのトレーニングの約半分のコストで、データセット全体を最初から生成できることがわかりました。また、2つの実世界のシーン理解タスク(セマンティックセグメンテーションと3D形状予測)でのシミュレーションから実数への転送パフォーマンスを評価します。データセットの事前トレーニングにより、両方のタスクのパフォーマンスが大幅に向上し、最新の状態が達成されます。 -最も挑戦的なPix3Dテストセットでのアートパフォーマンス。レンダリングされたすべての画像データ、およびデータセットの生成と実験の実行に使用したすべてのコードは、オンラインで入手できます。
For many fundamental scene understanding tasks, it is difficult or impossible to obtain per-pixel ground truth labels from real images. We address this challenge by introducing Hypersim, a photorealistic synthetic dataset for holistic indoor scene understanding. To create our dataset, we leverage a large repository of synthetic scenes created by professional artists, and we generate 77,400 images of 461 indoor scenes with detailed per-pixel labels and corresponding ground truth geometry. Our dataset: (1) relies exclusively on publicly available 3D assets; (2) includes complete scene geometry, material information, and lighting information for every scene; (3) includes dense per-pixel semantic instance segmentations and complete camera information for every image; and (4) factors every image into diffuse reflectance, diffuse illumination, and a non-diffuse residual term that captures view-dependent lighting effects. We analyze our dataset at the level of scenes, objects, and pixels, and we analyze costs in terms of money, computation time, and annotation effort. Remarkably, we find that it is possible to generate our entire dataset from scratch, for roughly half the cost of training a popular open-source natural language processing model. We also evaluate sim-to-real transfer performance on two real-world scene understanding tasks - semantic segmentation and 3D shape prediction - where we find that pre-training on our dataset significantly improves performance on both tasks, and achieves state-of-the-art performance on the most challenging Pix3D test set. All of our rendered image data, as well as all the code we used to generate our dataset and perform our experiments, is available online.
updated: Wed Aug 18 2021 03:16:16 GMT+0000 (UTC)
published: Wed Nov 04 2020 20:12:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト