arXiv reaDer
視覚的文書理解のためのテスト時間の適応
Test-Time Adaptation for Visual Document Understanding
自己監視の事前トレーニングは、さまざまな視覚的文書理解(VDU)タスクのための転送可能な表現を生成することができました。ただし、テスト時に新しい分布シフトに適応するそのような表現の能力はまだ研究されていません。 DocTTAを提案します。これは、マスクされた視覚言語モデリングと疑似ラベリングを介したクロスモダリティの自己監視学習を活用して、テスト時にソースドメインで学習したモデルをラベルのないターゲットドメインに適応させる、ドキュメントの新しいテスト時間適応アプローチです。また、エンティティ認識、キー値抽出、ドキュメントの視覚的な質問応答タスクなど、さまざまなVDUタスクに既存の公開データセットを使用した新しいベンチマークを紹介します。DocTTAはソースモデルのパフォーマンスを最大1.79%(F1スコア)、3.43%(F1スコア)向上させます。 )、および17.68%(ANLSスコア)であり、ターゲットデータのキャリブレーションエラーを大幅に削減します。
Self-supervised pretraining has been able to produce transferable representations for various visual document understanding (VDU) tasks. However, the ability of such representations to adapt to new distribution shifts at test-time has not been studied yet. We propose DocTTA, a novel test-time adaptation approach for documents that leverages cross-modality self-supervised learning via masked visual language modeling as well as pseudo labeling to adapt models learned on a source domain to an unlabeled target domain at test time. We also introduce new benchmarks using existing public datasets for various VDU tasks including entity recognition, key-value extraction, and document visual question answering tasks where DocTTA improves the source model performance up to 1.79% in (F1 score), 3.43% (F1 score), and 17.68% (ANLS score), respectively while drastically reducing calibration error on target data.
updated: Wed Jun 15 2022 01:57:12 GMT+0000 (UTC)
published: Wed Jun 15 2022 01:57:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト