大規模なモデルを使用して自然画像から視覚的表現を学習する自己教師あり学習 (SSL) の最近の進歩により、完全に教師あり学習によって生成される結果と、下流のビジョン タスクで SSL によって生成される結果との間のギャップが急速に縮小されています。この進歩に触発され、主に表形式および構造化されたドキュメント画像アプリケーションの出現に動機付けられて、どの自己教師付き事前トレーニング目標、アーキテクチャ、および微調整戦略が最も効果的かを調査します。これらの質問に対処するために、RegCLR を導入します。これは、対照的な方法と正則化された方法を組み合わせた新しい自己監視型フレームワークであり、標準の Vision Transformer アーキテクチャと互換性があります。次に、RegCLR は、対照的な方法の代表的な例としてマスクされたオートエンコーダーを統合し、両方の分岐で構成可能な入力画像拡張を使用して正則化された方法の代表的な例として強化された Barlow Twins を統合することによってインスタンス化されます。標準的な Word や Latex 文書からさらに困難な電子医療記録 (EHR) コンピューター画面画像に至るまで、いくつかの現実世界の表認識シナリオ (文書画像から表を抽出するなど) は、これから学習した表現から大きな恩恵を受けることが示されています。新しいフレームワークでは、検出の平均精度 (AP) が、実際の EHR 画面イメージで完全に監視された以前のベースラインよりも、テーブルで 4.8%、列で 11.8%、GUI オブジェクトで 11.1% 相対的に向上しています。
Recent advances in self-supervised learning (SSL) using large models to learn visual representations from natural images are rapidly closing the gap between the results produced by fully supervised learning and those produced by SSL on downstream vision tasks. Inspired by this advancement and primarily motivated by the emergence of tabular and structured document image applications, we investigate which self-supervised pretraining objectives, architectures, and fine-tuning strategies are most effective. To address these questions, we introduce RegCLR, a new self-supervised framework that combines contrastive and regularized methods and is compatible with the standard Vision Transformer architecture. Then, RegCLR is instantiated by integrating masked autoencoders as a representative example of a contrastive method and enhanced Barlow Twins as a representative example of a regularized method with configurable input image augmentations in both branches. Several real-world table recognition scenarios (e.g., extracting tables from document images), ranging from standard Word and Latex documents to even more challenging electronic health records (EHR) computer screen images, have been shown to benefit greatly from the representations learned from this new framework, with detection average-precision (AP) improving relatively by 4.8% for Table, 11.8% for Column, and 11.1% for GUI objects over a previous fully supervised baseline on real-world EHR screen images.