このペーパーでは、アンカーをヒューリスティックに定義し、アンカーに機能を合わせる従来のRPNの制限に体系的に対処することにより、地域提案の品質と検出パフォーマンスを向上させるためのカスケード地域提案ネットワーク(Cascade RPN)と呼ばれるアーキテクチャを検討します。最初に、事前定義されたスケールとアスペクト比を持つ複数のアンカーを使用する代わりに、Cascade RPNは場所ごとに単一のアンカーに依存し、マルチステージの改良を実行します。各段階では、次の段階でアンカーなしのメトリックに続いてアンカーなしのメトリックで開始することにより、ポジティブサンプルを定義する際により厳格になります。第二に、ステージ全体で特徴とアンカーのアライメントを達成するために、入力として画像特徴に加えてアンカーを取り、アンカーによって誘導されるサンプリングされた特徴を学習する適応畳み込みが提案されます。 2段式カスケードRPNの単純な実装は、既存の地域提案方法を上回る、従来のRPNよりもAR 13.4ポイント高くなります。 Fast R-CNNおよびFaster R-CNNを採用すると、Cascade RPNは検出mAPをそれぞれ3.1および3.5ポイント改善できます。コードはhttps://github.com/thangvubk/Cascade-RPN.gitで公開されています。
This paper considers an architecture referred to as Cascade Region Proposal Network (Cascade RPN) for improving the region-proposal quality and detection performance by systematically addressing the limitation of the conventional RPN that heuristically defines the anchors and aligns the features to the anchors. First, instead of using multiple anchors with predefined scales and aspect ratios, Cascade RPN relies on a single anchor per location and performs multi-stage refinement. Each stage is progressively more stringent in defining positive samples by starting out with an anchor-free metric followed by anchor-based metrics in the ensuing stages. Second, to attain alignment between the features and the anchors throughout the stages, adaptive convolution is proposed that takes the anchors in addition to the image features as its input and learns the sampled features guided by the anchors. A simple implementation of a two-stage Cascade RPN achieves AR 13.4 points higher than that of the conventional RPN, surpassing any existing region proposal methods. When adopting to Fast R-CNN and Faster R-CNN, Cascade RPN can improve the detection mAP by 3.1 and 3.5 points, respectively. The code is made publicly available at https://github.com/thangvubk/Cascade-RPN.git.