このホワイト ペーパーでは、現実世界のドキュメント画像データセットで一般的に見られる歪みを生成するデータ拡張パイプラインを構築するための Python ライブラリである Augraphy を紹介します。 Augraphy は、古いマシンや汚れたマシンを使用した印刷、スキャン、ファックスなどの標準的なオフィス操作によって変更されたかのように見えるクリーンなドキュメント イメージの拡張バージョンを作成するためのさまざまな戦略を提供することで、他のデータ拡張ツールとは一線を画しています。時間の経過とともにインク、および手書きのマーキング。このホワイト ペーパーでは、Augraphy ツールについて説明し、ドキュメントのノイズ除去などのタスク用の多様なトレーニング データを生成するためのデータ拡張ツールとして、またドキュメント イメージ モデリング タスクでモデルのロバスト性を評価するための困難なテスト データを生成するために、Augraphy ツールをどのように使用できるかを示します。
This paper introduces Augraphy, a Python library for constructing data augmentation pipelines which produce distortions commonly seen in real-world document image datasets. Augraphy stands apart from other data augmentation tools by providing many different strategies to produce augmented versions of clean document images that appear as if they have been altered by standard office operations, such as printing, scanning, and faxing through old or dirty machines, degradation of ink over time, and handwritten markings. This paper discusses the Augraphy tool, and shows how it can be used both as a data augmentation tool for producing diverse training data for tasks such as document denoising, and also for generating challenging test data to evaluate model robustness on document image modeling tasks.