arXiv reaDer
DPTNet: シーン テキスト検出用のデュアルパス トランスフォーマー アーキテクチャ
DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection
深層学習の隆盛は、シーンテキスト検出の急速な進歩に貢献しています。畳み込みネットワークを使用したすべての方法の中で、セグメンテーション ベースの方法は、任意の形状と極端なアスペクト比のテキスト インスタンスを検出する際の優位性により、大きな注目を集めています。ただし、ボトムアップ方式は、セグメンテーション モデルのパフォーマンスに制限されます。このホワイト ペーパーでは、DPTNet (Dual-Path Transformer Network) を提案します。DPTNet は、シーン テキスト検出タスクのグローバル情報とローカル情報をモデル化するためのシンプルで効果的なアーキテクチャです。さらに、畳み込みネットワークを強力な自己注意メカニズムと統合して、注意経路と畳み込み経路の間の補完的な手がかりを提供する並列設計を提案します。さらに、チャネルと空間次元で補完的な手がかりを提供するために、2 つのパスにわたる双方向相互作用モジュールが開発されています。また、追加のマルチヘッドアテンションレイヤーを追加することで、集中操作をアップグレードします。当社の DPTNet は、MSRA-TD500 データセットで最先端の結果を達成し、検出精度と速度の両方の点で他の標準ベンチマークで競争力のある結果を提供します。
The prosperity of deep learning contributes to the rapid progress in scene text detection. Among all the methods with convolutional networks, segmentation-based ones have drawn extensive attention due to their superiority in detecting text instances of arbitrary shapes and extreme aspect ratios. However, the bottom-up methods are limited to the performance of their segmentation models. In this paper, we propose DPTNet (Dual-Path Transformer Network), a simple yet effective architecture to model the global and local information for the scene text detection task. We further propose a parallel design that integrates the convolutional network with a powerful self-attention mechanism to provide complementary clues between the attention path and convolutional path. Moreover, a bi-directional interaction module across the two paths is developed to provide complementary clues in the channel and spatial dimensions. We also upgrade the concentration operation by adding an extra multi-head attention layer to it. Our DPTNet achieves state-of-the-art results on the MSRA-TD500 dataset, and provides competitive results on other standard benchmarks in terms of both detection accuracy and speed.
updated: Sun Aug 21 2022 12:58:45 GMT+0000 (UTC)
published: Sun Aug 21 2022 12:58:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト