Open Images V4は、画像分類、オブジェクト検出、視覚的関係検出のための統合された注釈を備えた9.2M画像のデータセットです。画像には、素材の共有と適合を可能にするCreative Commons Attributionライセンスがあり、事前定義されたクラス名またはタグのリストなしでFlickrから収集されているため、自然なクラス統計が得られ、初期設計バイアスを回避できます。 Open Images V4は、19.8kコンセプト用の30.1M画像レベルラベル、600個のオブジェクトクラス用の15.4Mバウンディングボックス、57個のクラスを含む375k視覚関係アノテーションなど、いくつかの次元で大規模を提供します。特にオブジェクト検出では、次に大きいデータセットよりも15倍多くの境界ボックスを提供します(1.9Mの画像で15.4Mボックス)。多くの場合、画像には複数のオブジェクトが含まれる複雑なシーンが表示されます(画像あたり平均8つの注釈付きオブジェクト)。視覚的な関係の検出、構造化された推論を必要とする新たなタスクをサポートする、それらの間の視覚的な関係に注釈を付けました。データセットに関する詳細な包括的な統計を提供し、注釈の品質を検証し、トレーニングデータの量が増えるにつれていくつかの最新モデルのパフォーマンスがどのように進化するかを調査し、複数のタイプの注釈を統一することで可能になった2つのアプリケーションを示します同じ画像に共存しています。 Open Images V4の規模、品質、および多様性が、画像分類、オブジェクト検出、視覚的関係検出の分野を超えたさらなる研究と革新を促進することを願っています。
We present Open Images V4, a dataset of 9.2M images with unified annotations for image classification, object detection and visual relationship detection. The images have a Creative Commons Attribution license that allows to share and adapt the material, and they have been collected from Flickr without a predefined list of class names or tags, leading to natural class statistics and avoiding an initial design bias. Open Images V4 offers large scale across several dimensions: 30.1M image-level labels for 19.8k concepts, 15.4M bounding boxes for 600 object classes, and 375k visual relationship annotations involving 57 classes. For object detection in particular, we provide 15x more bounding boxes than the next largest datasets (15.4M boxes on 1.9M images). The images often show complex scenes with several objects (8 annotated objects per image on average). We annotated visual relationships between them, which support visual relationship detection, an emerging task that requires structured reasoning. We provide in-depth comprehensive statistics about the dataset, we validate the quality of the annotations, we study how the performance of several modern models evolves with increasing amounts of training data, and we demonstrate two applications made possible by having unified annotations of multiple types coexisting in the same images. We hope that the scale, quality, and variety of Open Images V4 will foster further research and innovation even beyond the areas of image classification, object detection, and visual relationship detection.