ImageNet、Pascal VOC、COCOなど、いくつかの大規模な注釈付きデータセットが利用できるようになったため、ディープラーニングは、いくつかのビジョンタスクで驚くべき結果を達成することで、コンピュータービジョン研究に革命をもたらしました。注釈付きデータセットの生成を容易にする新しいツールは、データ駆動型AIをアプリケーションとドメイン全体に広めるのに役立ちます。この作品では、バーチャルリアリティを活用してラベリングタスクをビデオゲームをプレイするのと同じくらい簡単で楽しいものにする、高密度3Dセマンティックセグメンテーション用の最初の3DラベリングツールであるShootingLabelsを提案します。私たちのツールは、手元の3Dデータの性質(点群、メッシュなど)に関係なく、大規模な環境に非常に迅速に意味的にラベルを付けることができます。さらに、Shooting Labelsはマルチユーザーの注釈を効率的に統合して、ラベル付けの精度を自動的に向上させ、ラベルの不確実性マップを計算します。さらに、私たちのフレームワーク内では、3D注釈を2D画像に投影できるため、ピクセル単位のセマンティックラベリングなどの悪名高い低速でコストのかかるタスクも高速化されます。 2つの異なるシナリオでツールの精度と効率を示します。Matterport3Dによって提供される屋内ワークスペースと、1000以上のKITTI画像から再構築された大規模な屋外環境です。
Availability of a few, large-size, annotated datasets, like ImageNet, Pascal VOC and COCO, has lead deep learning to revolutionize computer vision research by achieving astonishing results in several vision tasks.We argue that new tools to facilitate generation of annotated datasets may help spreading data-driven AI throughout applications and domains. In this work we propose Shooting Labels, the first 3D labeling tool for dense 3D semantic segmentation which exploits Virtual Reality to render the labeling task as easy and fun as playing a video-game. Our tool allows for semantically labeling large scale environments very expeditiously, whatever the nature of the 3D data at hand (e.g. point clouds, mesh). Furthermore, Shooting Labels efficiently integrates multiusers annotations to improve the labeling accuracy automatically and compute a label uncertainty map. Besides, within our framework the 3D annotations can be projected into 2D images, thereby speeding up also a notoriously slow and expensive task such as pixel-wise semantic labeling. We demonstrate the accuracy and efficiency of our tool in two different scenarios: an indoor workspace provided by Matterport3D and a large-scale outdoor environment reconstructed from 1000+ KITTI images.