ターゲットボックスの高いカバレッジを達成するために、従来の1ステージアンカーベースの検出器の通常の戦略は、特にシーンテキスト検出タスクで、各空間位置で複数の事前分布を利用することです。この作業では、機能マップの各場所が1つの参照ボックスにのみ関連付けられる、多方向テキスト検出のためのシンプルで直感的な方法を示します。このアイデアは、学習した提案を使用して任意の形状のオブジェクトの位置を推定できる2段階のR-CNNフレームワークから着想を得ています。この方法の目的は、このメカニズムを1段階の検出器に統合し、回帰演算で取得した学習アンカーを使用して、元のアンカーを最終予測に置き換えることです。 RetinaNetに基づいて、私たちの方法は、すべてのアンカーベースのシーンテキスト検出器を上回る、完全にリアルタイムの効率(800pで26:5fps)でいくつかの公開ベンチマークで競争力のあるパフォーマンスを達成します。さらに、アンカーの設計にあまり注意を払わずに、この方法は他の類似の検出タスクに簡単に適用できると考えています。コードはhttps://github.com/xhzdeng/stelaで公開されます。
To achieve high coverage of target boxes, a normal strategy of conventional one-stage anchor-based detectors is to utilize multiple priors at each spatial position, especially in scene text detection tasks. In this work, we present a simple and intuitive method for multi-oriented text detection where each location of feature maps only associates with one reference box. The idea is inspired from the twostage R-CNN framework that can estimate the location of objects with any shape by using learned proposals. The aim of our method is to integrate this mechanism into a onestage detector and employ the learned anchor which is obtained through a regression operation to replace the original one into the final predictions. Based on RetinaNet, our method achieves competitive performances on several public benchmarks with a totally real-time efficiency (26:5fps at 800p), which surpasses all of anchor-based scene text detectors. In addition, with less attention on anchor design, we believe our method is easy to be applied on other analogous detection tasks. The code will publicly available at https://github.com/xhzdeng/stela.