オブジェクト検出の進歩は、オープンチャレンジに対する研究コミュニティの注意を集中させるデータセットによって可能になります。このプロセスにより、単純な画像から複雑なシーン、境界ボックスからセグメンテーションマスクに至ることができました。この作業では、LVIS(「el-vis」と発音):大語彙インスタンスセグメンテーションの新しいデータセットを紹介します。 164kの画像で、1000を超えるエントリレベルのオブジェクトカテゴリに対して、最大200万個の高品質のインスタンスセグメンテーションマスクを収集する予定です。自然画像のカテゴリのジップフィアン分布により、LVISには自然にカテゴリの長いテールがあり、トレーニングサンプルはほとんどありません。オブジェクト検出のための最先端のディープラーニングメソッドは、低サンプル領域でのパフォーマンスが低いことを考えると、データセットは重要で刺激的な新しい科学的課題をもたらすと考えています。 LVISはhttp://www.lvisdataset.orgで入手できます。
Progress on object detection is enabled by datasets that focus the research community's attention on open challenges. This process led us from simple images to complex scenes and from bounding boxes to segmentation masks. In this work, we introduce LVIS (pronounced `el-vis'): a new dataset for Large Vocabulary Instance Segmentation. We plan to collect ~2 million high-quality instance segmentation masks for over 1000 entry-level object categories in 164k images. Due to the Zipfian distribution of categories in natural images, LVIS naturally has a long tail of categories with few training samples. Given that state-of-the-art deep learning methods for object detection perform poorly in the low-sample regime, we believe that our dataset poses an important and exciting new scientific challenge. LVIS is available at http://www.lvisdataset.org.