データ駆動型アルゴリズムは、ロボットビジョンの問題のほぼすべての面で従来の手法を上回っています。このようなアルゴリズムは、トレーニングプロセス後に適切に機能するために膨大な量の品質データを必要とします。現実世界の膨大な量のデータを収集して注釈を付けることは、時間がかかり、エラーが発生しやすい作業です。これらの問題は規模と品質を制限します。合成データの生成は、生成が速く、注釈付けが自動化されるため、ますます一般的になっています。ただし、現在のデータセットと環境のほとんどには、現実世界のリアリズム、相互作用、詳細が欠けています。 UnrealROXは、Unreal Engine 4上に構築された環境であり、ロボットエージェントが探索するハイパーリアリスティックな屋内シーンを活用して、現実世界のギャップを減らすことを目的としています。写実的なシーンとロボットは、Unreal Engineによって視線をキャプチャする仮想現実ヘッドセットにレンダリングされるため、人間のオペレーターはロボットを動かし、ロボットの手にコントローラーを使用できます。シーン情報はフレームごとにダンプされるため、オフラインで再生して生データとグラウンドトゥルースアノテーションを生成できます。この仮想現実環境により、ロボットビジョンの研究者は、クラスおよびインスタンスのセマンティックセグメンテーション、オブジェクト検出、深度推定、視覚的把握、ナビゲーションなどのさまざまな問題について、完全かつ正確な現実的で視覚的に妥当なデータを生成できます
Data-driven algorithms have surpassed traditional techniques in almost every aspect in robotic vision problems. Such algorithms need vast amounts of quality data to be able to work properly after their training process. Gathering and annotating that sheer amount of data in the real world is a time-consuming and error-prone task. Those problems limit scale and quality. Synthetic data generation has become increasingly popular since it is faster to generate and automatic to annotate. However, most of the current datasets and environments lack realism, interactions, and details from the real world. UnrealROX is an environment built over Unreal Engine 4 which aims to reduce that reality gap by leveraging hyperrealistic indoor scenes that are explored by robot agents which also interact with objects in a visually realistic manner in that simulated world. Photorealistic scenes and robots are rendered by Unreal Engine into a virtual reality headset which captures gaze so that a human operator can move the robot and use controllers for the robotic hands; scene information is dumped on a per-frame basis so that it can be reproduced offline to generate raw data and ground truth annotations. This virtual reality environment enables robotic vision researchers to generate realistic and visually plausible data with full ground truth for a wide variety of problems such as class and instance semantic segmentation, object detection, depth estimation, visual grasping, and navigation.