arXiv reaDer
あなたは一度だけ認識します:高速ビデオテキストスポッティングに向けて
You Only Recognize Once: Towards Fast Video Text Spotting
ビデオテキストスポッティングは、そのさまざまな実際のアプリケーションのために、依然として重要な研究トピックです。以前のアプローチは通常、4段階のパイプラインに分類されます。個々の画像でのテキスト検出、ローカライズされたテキスト領域のフレームごとの認識、テキストストリームの追跡、複雑な後処理スキルによる最終結果の生成です。これは、膨大な計算コストと干渉に悩まされる可能性があります。低品質のテキストの。この論文では、フレームごとの認識ではなく、ローカライズされたテキストを1回だけ認識することにより、高速で堅牢なビデオテキストスポッティングフレームワークを提案します。具体的には、まず、適切に設計された時空間検出器を使用して、ビデオのテキスト領域を取得します。次に、テキストストリームから最高品質のテキストを選択し、選択されたテキストのみを認識するための新しいテキスト推奨の開発に集中します。ここで、レコメンダーは、テキストトラッキング、品質スコアリング、および認識をエンドツーエンドのトレーニング可能なモジュールにまとめます。これにより、低品質のテキストによる干渉が回避されるだけでなく、ビデオテキストのスポッティングプロセスが大幅に高速化されます。さらに、ビデオテキストスポッティングコミュニティを宣伝するための大規模なビデオテキストデータセット(LSVTD)を収集します。これには、22の異なる実際のシナリオからの100のテキストビデオが含まれています。 2つの公開ベンチマークでの広範な実験は、私たちの方法がフレーム単位の方法と比較して平均71倍認識プロセスを大幅に高速化し、また驚くべき最先端を達成することを示しています。
Video text spotting is still an important research topic due to its various real-applications. Previous approaches usually fall into the four-staged pipeline: text detection in individual images, framewisely recognizing localized text regions, tracking text streams and generating final results with complicated post-processing skills, which might suffer from the huge computational cost as well as the interferences of low-quality text. In this paper, we propose a fast and robust video text spotting framework by only recognizing the localized text one-time instead of frame-wisely recognition. Specifically, we first obtain text regions in videos with a well-designed spatial-temporal detector. Then we concentrate on developing a novel text recommender for selecting the highest-quality text from text streams and only recognizing the selected ones. Here, the recommender assembles text tracking, quality scoring and recognition into an end-to-end trainable module, which not only avoids the interferences from low-quality text but also dramatically speeds up the video text spotting process. In addition, we collect a larger scale video text dataset (LSVTD) for promoting the video text spotting community, which contains 100 text videos from 22 different real-life scenarios. Extensive experiments on two public benchmarks show that our method greatly speeds up the recognition process averagely by 71 times compared with the frame-wise manner, and also achieves the remarkable state-of-the-art.
updated: Mon Oct 25 2021 09:35:38 GMT+0000 (UTC)
published: Fri Mar 08 2019 06:21:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト