9000以上の物体カテゴリを検出できる最先端のリアルタイム物体検出システムYOLO9000を紹介する。まず、YOLOの検出手法を改良したモデルを提案する。改良されたモデルYOLOv2は、PASCAL VOCやCOCOのような標準的な検出タスクにおいて最先端のものである。67 FPSでYOLOv2はVOC 2007で76.8mAPを取得した。40 FPSでは、YOLOv2は78.6 mAPを得ており、ResNetやSSDを用いたFaster RCNNのような最先端の手法を凌駕しながらも、大幅に高速化されている。最後に、物体検出と分類を共同で学習する方法を提案する。この方法を用いて,COCO検出データセットとImageNet分類データセットでYOLO9000を同時に訓練する。この共同訓練により、YOLO9000はラベル付きの検出データを持たない物体クラスの検出を予測することができるようになる。我々のアプローチをImageNet検出タスクで検証する。YOLO9000は、200クラス中44クラスの検出データしか持っていないにもかかわらず、ImageNet検出の検証セットで19.7 mAPを得る。COCOに含まれていない156のクラスについては、YOLO9000は16.0 mAPを得る。しかし、YOLOは200以上のクラスを検出でき、9000以上の異なるオブジェクトカテゴリの検出を予測する。また、YOLOはリアルタイムで動作する。
We introduce YOLO9000, a state-of-the-art, real-time object detection system that can detect over 9000 object categories. First we propose various improvements to the YOLO detection method, both novel and drawn from prior work. The improved model, YOLOv2, is state-of-the-art on standard detection tasks like PASCAL VOC and COCO. At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster RCNN with ResNet and SSD while still running significantly faster. Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don't have labelled detection data. We validate our approach on the ImageNet detection task. YOLO9000 gets 19.7 mAP on the ImageNet detection validation set despite only having detection data for 44 of the 200 classes. On the 156 classes not in COCO, YOLO9000 gets 16.0 mAP. But YOLO can detect more than just 200 classes; it predicts detections for more than 9000 different object categories. And it still runs in real-time.