複雑な都市のストリートシーンを視覚的に理解することは、幅広いアプリケーションの実現要因です。オブジェクト検出は、特にディープラーニングのコンテキストで、大規模なデータセットから多大な恩恵を受けています。ただし、セマンティックな都市のシーンを理解するために、現実の都市のシーンの複雑さを適切にキャプチャするデータセットはありません。これに対処するために、ピクセルレベルおよびインスタンスレベルのセマンティックラベリングのアプローチをトレーニングおよびテストするためのベンチマークスイートおよび大規模なデータセットであるCityscapesを紹介します。 Cityscapesは、50の異なる都市の街路で記録された大規模で多様なステレオビデオシーケンスのセットで構成されています。これらの画像のうち5000個には、高品質のピクセルレベルの注釈が付いています。 20000個の追加画像には粗い注釈があり、大量の弱いラベル付きデータを活用する方法を可能にします。重要なのは、データセットのサイズ、注釈の豊富さ、シーンの可変性、複雑さの点で、以前の試みを上回る努力です。付随する実証研究では、ベンチマークに基づいて、データセットの特性を詳細に分析し、いくつかの最先端のアプローチのパフォーマンス評価を行っています。
Visual understanding of complex urban street scenes is an enabling factor for a wide range of applications. Object detection has benefited enormously from large-scale datasets, especially in the context of deep learning. For semantic urban scene understanding, however, no current dataset adequately captures the complexity of real-world urban scenes. To address this, we introduce Cityscapes, a benchmark suite and large-scale dataset to train and test approaches for pixel-level and instance-level semantic labeling. Cityscapes is comprised of a large, diverse set of stereo video sequences recorded in streets from 50 different cities. 5000 of these images have high quality pixel-level annotations; 20000 additional images have coarse annotations to enable methods that leverage large volumes of weakly-labeled data. Crucially, our effort exceeds previous attempts in terms of dataset size, annotation richness, scene variability, and complexity. Our accompanying empirical study provides an in-depth analysis of the dataset characteristics, as well as a performance evaluation of several state-of-the-art approaches based on our benchmark.