最近のオブジェクト検出およびインスタンスセグメンテーションタスクは、主に比較的小さなカテゴリセットのデータセットに焦点を当てています。 20クラスのPascal VOCと80クラスのCOCO。新しい大規模な語彙データセットLVISは、従来の方法に新たな課題をもたらします。この作業では、まれなカテゴリのロングテール問題を解決するための等化損失を提案します。検出データセットのデータを活用してトレーニング中の注釈不足問題の影響を軽減することと組み合わせることで、本方法は、マスクRと比較してLVISベンチマークで5.1%の全体的なAPゲインと11.4%のまれなカテゴリーのAPゲインを達成します。 CNNベースライン。最後に、LVISのテストセットで28.9マスクAPを達成し、LVISチャレンジ2019で1位になりました。
Recent object detection and instance segmentation tasks mainly focus on datasets with a relatively small set of categories, e.g. Pascal VOC with 20 classes and COCO with 80 classes. The new large vocabulary dataset LVIS brings new challenges to conventional methods. In this work, we propose an equalization loss to solve the long tail of rare categories problem. Combined with exploiting the data from detection datasets to alleviate the effect of missing-annotation problems during the training, our method achieves 5.1% overall AP gain and 11.4% AP gain of rare categories on LVIS benchmark without any bells and whistles compared to Mask R-CNN baseline. Finally we achieve 28.9 mask AP on the test-set of the LVIS and rank 1st place in LVIS Challenge 2019.