arXiv reaDer
マルチタスクトランスフォーマーを使用した弱教師ありテキストスポッティングに向けて
Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer
テキストの検出と認識のコンポーネントを共同で最適化することの利点により、テキストスポッティングのエンドツーエンドの方法が最近文献で注目を集めています。既存の方法では通常、検出ブランチと認識ブランチが明確に分離されているため、2つのタスクに正確な注釈が必要です。 TextTranSpotter(TTS)を紹介します。これは、テキストスポッティングのためのトランスベースのアプローチであり、完全に監視された設定と弱く監視された設定の両方でトレーニングできる最初のテキストスポッティングフレームワークです。単語検出ごとに単一の潜在表現を学習し、ハンガリー語の損失に基づく新しい損失関数を使用することにより、私たちの方法は、高価なローカリゼーション注釈の必要性を軽減します。実際のデータのテキスト文字起こし注釈のみでトレーニングされた、弱く監視された方法は、以前の最先端の完全に監視された方法との競争力のあるパフォーマンスを実現します。完全に監視された方法でトレーニングされると、TextTranSpotterは複数のベンチマークで最先端の結果を表示します。
Text spotting end-to-end methods have recently gained attention in the literature due to the benefits of jointly optimizing the text detection and recognition components. Existing methods usually have a distinct separation between the detection and recognition branches, requiring exact annotations for the two tasks. We introduce TextTranSpotter (TTS), a transformer-based approach for text spotting and the first text spotting framework which may be trained with both fully- and weakly-supervised settings. By learning a single latent representation per word detection, and using a novel loss function based on the Hungarian loss, our method alleviates the need for expensive localization annotations. Trained with only text transcription annotations on real data, our weakly-supervised method achieves competitive performance with previous state-of-the-art fully-supervised methods. When trained in a fully-supervised manner, TextTranSpotter shows state-of-the-art results on multiple benchmarks.
updated: Mon Feb 14 2022 05:55:25 GMT+0000 (UTC)
published: Fri Feb 11 2022 08:50:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト