arXiv reaDer
変形可能な畳み込みによるフォーカス強化シーンテキスト認識
Focus-Enhanced Scene Text Recognition with Deformable Convolutions
  最近、ディープラーニングに基づくシーンテキスト認識方法がコンピュータービジョンの分野で生まれました。既存の方法は優れたパフォーマンスを達成しましたが、不規則なテキストの認識は、さまざまな形状と歪んだパターンのために依然として困難です。現実の世界で単語を読むとき、通常は心の中でそれを修正するのではなく、焦点と視野を調整することを考慮してください。同様に、幾何学的構造が調整可能な変形可能な畳み込み層を利用することにより、この作業で不規則なテキストを処理するための修正のステップなしで強化された認識ネットワークを提示します。いくつかの実験が適用されており、公開ベンチマークの結果は、提案されたコンポーネントの有効性を実証し、メソッドが満足のいくパフォーマンスに達していることを示しています。コードは、間もなくhttps://github.com/Alpaca07/dtrで公開されます。
Recently, scene text recognition methods based on deep learning have sprung up in computer vision area. The existing methods achieved great performances, but the recognition of irregular text is still challenging due to the various shapes and distorted patterns. Consider that at the time of reading words in the real world, normally we will not rectify it in our mind but adjust our focus and visual fields. Similarly, through utilizing deformable convolutional layers whose geometric structures are adjustable, we present an enhanced recognition network without the steps of rectification to deal with irregular text in this work. A number of experiments have been applied, where the results on public benchmarks demonstrate the effectiveness of our proposed components and shows that our method has reached satisfactory performances. The code will be publicly available at https://github.com/Alpaca07/dtr soon.
updated: Mon Sep 23 2019 07:23:03 GMT+0000 (UTC)
published: Thu Aug 29 2019 00:54:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト