arXiv reaDer
Text-DIAE: テキスト認識とドキュメント強化のための自己管理型劣化不変オートエンコーダ
Text-DIAE: A Self-Supervised Degradation Invariant Autoencoders for Text Recognition and Document Enhancement
この論文では、テキスト認識(手書きまたはシーンテキスト)とドキュメント画像強調の2つのタスクに取り組むように設計された自己教師ありモデルであるテキスト劣化不変オートエンコーダー(Text-DIAE)を提案します。ラベル付けされたデータを使用せずに事前トレーニング中に最適化される学習目標として、3 つの口実タスクを組み込んだトランスフォーマーベースのアーキテクチャを採用することから始めます。それぞれの目的は、最終的なダウンストリーム タスクに合わせて特別に調整されています。選択した口実タスクの設計選択を確認するいくつかのアブレーション実験を実施します。重要なことに、提案されたモデルは、対照的な損失に基づく以前の最先端の方法の制限を示さないと同時に、収束に必要なデータサンプルが大幅に少なくなります。最後に、私たちの方法が、手書きおよびシーンテキスト認識とドキュメント画像強調における既存の教師ありおよび自己教師ありの設定で最先端を超えていることを示します。私たちのコードとトレーニング済みモデルは、~ http://Upon_Acceptance で公開されます。
In this paper, we propose a Text-Degradation Invariant Auto Encoder (Text-DIAE), a self-supervised model designed to tackle two tasks, text recognition (handwritten or scene-text) and document image enhancement. We start by employing a transformer-based architecture that incorporates three pretext tasks as learning objectives to be optimized during pre-training without the usage of labeled data. Each of the pretext objectives is specifically tailored for the final downstream tasks. We conduct several ablation experiments that confirm the design choice of the selected pretext tasks. Importantly, the proposed model does not exhibit limitations of previous state-of-the-art methods based on contrastive losses, while at the same time requiring substantially fewer data samples to converge. Finally, we demonstrate that our method surpasses the state-of-the-art in existing supervised and self-supervised settings in handwritten and scene text recognition and document image enhancement. Our code and trained models will be made publicly available at~ http://Upon_Acceptance.
updated: Thu Aug 18 2022 14:29:56 GMT+0000 (UTC)
published: Wed Mar 09 2022 15:44:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト