arXiv reaDer
UNITS:シーンテキスト検出のための教師なし中間トレーニングステージ
UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection
最近のシーンテキストの検出方法は、ほとんどディープラーニングとデータ駆動型に基づいています。合成データは、注釈コストが高いため、事前トレーニングに一般的に採用されています。ただし、合成データと実際のデータの間には明らかなドメインの不一致があります。微調整段階で合成データによって初期化されたモデルを直接採用すると、パフォーマンスが最適化されない可能性があります。この論文では、シーンテキスト検出のための新しいトレーニングパラダイムを提案します。これは、実世界のデータへのバッファパスを構築し、事前トレーニング段階と微調整の間のギャップを緩和できる教師なし中間トレーニング段階(UNITS)を導入します。ステージ。教師なしの方法で実世界のデータから情報を認識するために、3つのトレーニング戦略がさらに検討されます。 UNITSを使用すると、推論中にパラメータや計算を導入することなく、シーンテキスト検出器が改善されます。広範な実験結果は、3つの公開データセットで一貫したパフォーマンスの向上を示しています。
Recent scene text detection methods are almost based on deep learning and data-driven. Synthetic data is commonly adopted for pre-training due to expensive annotation cost. However, there are obvious domain discrepancies between synthetic data and real-world data. It may lead to sub-optimal performance to directly adopt the model initialized by synthetic data in the fine-tuning stage. In this paper, we propose a new training paradigm for scene text detection, which introduces an UNsupervised Intermediate Training Stage (UNITS) that builds a buffer path to real-world data and can alleviate the gap between the pre-training stage and fine-tuning stage. Three training strategies are further explored to perceive information from real-world data in an unsupervised way. With UNITS, scene text detectors are improved without introducing any parameters and computations during inference. Extensive experimental results show consistent performance improvements on three public datasets.
updated: Tue May 10 2022 05:34:58 GMT+0000 (UTC)
published: Tue May 10 2022 05:34:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト