arXiv reaDer
SSD: シングルショットマルチボックス検出器
SSD: Single Shot MultiBox Detector
単一のディープニューラルネットワークを用いて画像中の物体を検出する方法を提示します。SSDと名付けられた我々のアプローチは、バウンディングボックスの出力空間を、特徴マップの位置ごとに異なるアスペクト比とスケールのデフォルトボックスのセットに離散化します。予測時には、ネットワークは各デフォルトボックス内の各オブジェクトカテゴリの存在に関するスコアを生成し、オブジェクトの形状とよりよく一致するようにボックスを調整します。さらに,ネットワークは解像度の異なる複数の特徴マップからの予測値を組み合わせて,様々なサイズの物体を自然に扱うことができます。我々のSSDモデルは、オブジェクトの提案を必要とする手法と比較してシンプルです。なぜなら、提案の生成とそれに続くピクセルまたは特徴のリサンプリング段階を完全に排除し、すべての計算を単一のネットワークにカプセル化するからです。これにより、SSDは学習が容易であり、検出コンポーネントを必要とするシステムへの統合が容易になります。PASCAL VOC、MS COCO、およびILSVRCデータセットでの実験結果は、SSDが追加のオブジェクト提案ステップを利用する手法と同等の精度を持ち、トレーニングと推論の両方に統一されたフレームワークを提供する一方で、はるかに高速であることを確認しています。SSDは他のシングルステージ手法と比較して、入力画像サイズが小さくても、はるかに優れた精度を示します。300×300の入力では、Nvidia Titan X上で58 FPSでVOC2007テストを行ったところ、SSDは72.1%のmAPを達成し、500×500の入力では75.1%のmAPを達成し、同等の最新のFaster R-CNNモデルを凌駕しています。コードは https://github.com/weiliu89/caffe/tree/ssd から入手可能です。
We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location. At prediction time, the network generates scores for the presence of each object category in each default box and produces adjustments to the box to better match the object shape. Additionally, the network combines predictions from multiple feature maps with different resolutions to naturally handle objects of various sizes. Our SSD model is simple relative to methods that require object proposals because it completely eliminates proposal generation and subsequent pixel or feature resampling stage and encapsulates all computation in a single network. This makes SSD easy to train and straightforward to integrate into systems that require a detection component. Experimental results on the PASCAL VOC, MS COCO, and ILSVRC datasets confirm that SSD has comparable accuracy to methods that utilize an additional object proposal step and is much faster, while providing a unified framework for both training and inference. Compared to other single stage methods, SSD has much better accuracy, even with a smaller input image size. For 300×300 input, SSD achieves 72.1% mAP on VOC2007 test at 58 FPS on a Nvidia Titan X and for 500×500 input, SSD achieves 75.1% mAP, outperforming a comparable state of the art Faster R-CNN model. Code is available at https://github.com/weiliu89/caffe/tree/ssd .
updated: Thu Dec 29 2016 19:05:11 GMT+0000 (UTC)
published: Tue Dec 08 2015 04:46:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト