最先端の物体検出ネットワークは、物体の位置を仮説化するために領域提案アルゴリズムに依存しています。SPPnetやFast R-CNNなどの進歩により、これらの検出ネットワークの実行時間が短縮され、領域提案計算がボトルネックとなっています。本研究では,検出ネットワークと全画像の畳み込み特徴を共有する領域提案ネットワーク(RPN)を導入することで,ほぼコストのかからない領域提案を可能にします。RPN は,各位置における物体境界と物体性スコアを同時に予測する完全畳み込みネットワークです。RPNはエンドツーエンドで学習して高品質の領域提案を生成し,それをFast R-CNNで検出に利用します。さらに、RPNとFast R-CNNの畳み込み特徴を共有することで、RPNとFast R-CNNを1つのネットワークに統合しました--最近よく使われる「注意」メカニズムを持つニューラルネットワークの用語を使うと、RPNコンポーネントは統合されたネットワークにどこを見るべきかを伝えます。非常に深いVGG-16モデルでは、我々の検出システムはGPU上で5fps(全ステップを含む)のフレームレートを持ち、PASCAL VOC 2007, 2012, MS COCOのデータセットでは、1画像あたりわずか300提案で最先端の物体検出精度を達成しています。ILSVRCとCOCO 2015のコンペティションでは、Faster R-CNNとRPNは、いくつかのトラックで1位を獲得したエントリーの基盤となっています。コードは公開されています。
State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottleneck. In this work, we introduce a Region Proposal Network (RPN) that shares full-image convolutional features with the detection network, thus enabling nearly cost-free region proposals. An RPN is a fully convolutional network that simultaneously predicts object bounds and objectness scores at each position. The RPN is trained end-to-end to generate high-quality region proposals, which are used by Fast R-CNN for detection. We further merge RPN and Fast R-CNN into a single network by sharing their convolutional features---using the recently popular terminology of neural networks with 'attention' mechanisms, the RPN component tells the unified network where to look. For the very deep VGG-16 model, our detection system has a frame rate of 5fps (including all steps) on a GPU, while achieving state-of-the-art object detection accuracy on PASCAL VOC 2007, 2012, and MS COCO datasets with only 300 proposals per image. In ILSVRC and COCO 2015 competitions, Faster R-CNN and RPN are the foundations of the 1st-place winning entries in several tracks. Code has been made publicly available.