カジュアルな機器で文書をキャプチャすると影がよく発生し、デジタル コピーの視覚的な品質と読みやすさに影響を与えます。自然な影を除去するアルゴリズムとは異なり、ドキュメントの影を除去するアルゴリズムは、高解像度の入力でフォントと図の詳細を保存する必要があります。以前の研究ではこの問題を無視し、おおよその注意と小さなデータセットを使用して影を削除していましたが、現実の状況では機能しない可能性があります。当社は、大規模な現実世界のデータセットと慎重に設計された周波数を意識したネットワークを介して、高解像度のドキュメントの影の除去を直接処理します。データセットに関しては、さまざまな照明環境下でさまざまなサンプルを含む実世界の文書ペアの高解像度 (2462 x 3699) 画像を 7,000 組以上取得しました。これは既存のデータセットの 10 倍の大きさです。ネットワークの設計に関しては、高解像度画像を周波数領域で分離し、慎重に設計されたネットワーク構造を通じて低周波の詳細と高周波の境界を効果的に学習できます。私たちのネットワークとデータセットを活用した提案された方法は、視覚的な品質と数値結果の点で、以前の方法よりも明らかに優れたパフォーマンスを示しています。コード、モデル、データセットは、https://github.com/CXH-Research/DocShadow-SD7K から入手できます。
Shadows often occur when we capture the documents with casual equipment, which influences the visual quality and readability of the digital copies. Different from the algorithms for natural shadow removal, the algorithms in document shadow removal need to preserve the details of fonts and figures in high-resolution input. Previous works ignore this problem and remove the shadows via approximate attention and small datasets, which might not work in real-world situations. We handle high-resolution document shadow removal directly via a larger-scale real-world dataset and a carefully designed frequency-aware network. As for the dataset, we acquire over 7k couples of high-resolution (2462 x 3699) images of real-world document pairs with various samples under different lighting circumstances, which is 10 times larger than existing datasets. As for the design of the network, we decouple the high-resolution images in the frequency domain, where the low-frequency details and high-frequency boundaries can be effectively learned via the carefully designed network structure. Powered by our network and dataset, the proposed method clearly shows a better performance than previous methods in terms of visual quality and numerical results. The code, models, and dataset are available at: https://github.com/CXH-Research/DocShadow-SD7K