3次元空間(3D)のシーンのセマンティックな理解は、サイズ、方向、ミッションクリティカルな決定を下すために重要なオブジェクトまでの真の距離などの幾何学的キューを提供するため、自動運転などのロボット指向アプリケーションの典型的な部分です。最初のステップとして、この作業では、ラベル付きの実世界のデータセットがない場合に、テクスチャキューに加えて、基礎となる幾何学的コンテキストを学習することにより、特定のシーンの異なる部分を3Dで意味的に分類する可能性を調査します。この目的のために、CARLAソフトウェアフレームワークを使用して、多数の合成シーン、それらのピクセル単位のラベル、および対応する3D表現を生成します。次に、レンダリングされた合成シーンのカラー情報から、基礎となるカテゴリ固有の3D表現とテクスチャキューを学習するディープニューラルネットワークを構築します。さらに、学習したモデルをさまざまな実世界のデータセットに適用して、そのパフォーマンスを評価します。結果の予備調査では、ニューラルネットワークが合成シーンから幾何学的コンテキストを学習し、この知識を効果的に適用して、実世界のシーンの3D表現の各ポイントを分類できることを示しています。
Semantic understanding of scenes in three-dimensional space (3D) is a quintessential part of robotics oriented applications such as autonomous driving as it provides geometric cues such as size, orientation and true distance of separation to objects which are crucial for taking mission critical decisions. As a first step, in this work we investigate the possibility of semantically classifying different parts of a given scene in 3D by learning the underlying geometric context in addition to the texture cues BUT in the absence of labelled real-world datasets. To this end we generate a large number of synthetic scenes, their pixel-wise labels and corresponding 3D representations using CARLA software framework. We then build a deep neural network that learns underlying category specific 3D representation and texture cues from color information of the rendered synthetic scenes. Further on we apply the learned model on different real world datasets to evaluate its performance. Our preliminary investigation of results show that the neural network is able to learn the geometric context from synthetic scenes and effectively apply this knowledge to classify each point of a 3D representation of a scene in real-world.