文書処理のための新しいデータ生成ツールを紹介します。このツールは、文字位置から段落レベルの位置まで、通常のタイプのドキュメントで最大レベルの視覚情報を提供することに重点を置いています。また、リソースの少ない言語で大規模なデータセットを操作できるだけでなく、文書化されたテキストの完全なレベルの情報を完全に処理する手段を提供します。データ生成ツールには、320000ベトナムの合成ドキュメント画像のデータセットと、他の言語で同様のサイズのデータセットを生成するための命令が付属しています。リポジトリは次の場所にあります:https://github.com/tson1997/SDL-Document-Image-Generation
We present a novel data generation tool for document processing. The tool focuses on providing a maximal level of visual information in a normal type document, ranging from character position to paragraph-level position. It also enables working with a large dataset on low-resource languages as well as providing a mean of processing thorough full-level information of the documented text. The data generation tools come with a dataset of 320000 Vietnamese synthetic document images and an instruction to generate a dataset of similar size in other languages. The repository can be found at: https://github.com/tson1997/SDL-Document-Image-Generation