この論文では、高速ハフ変換層に基づく新しいニューラルネットワークアーキテクチャを紹介します。このタイプのレイヤーにより、ニューラルネットワークは、ローカルエリアではなく、イメージ全体の線形エリアからフィーチャを蓄積できます。ドキュメントの画像における消失点検出の問題を解決することにより、その可能性を示します。このような問題は、制御されていない状態でドキュメントのカメラショットを処理するときに発生します。この場合、文書画像は射影変換を含むいくつかの特定の歪みを受ける可能性があります。モデルをトレーニングするために、MIDV-500データセットを使用してテスト結果を提供します。提案された方法の強力な一般化能力は、まったく異なるICDAR 2011のゆがみコンテストに適用することで証明されています。これらのデータセットの著者を考慮した以前に公開された論文では、オープンOCRエンジンTesseractで正しく認識された単語をカウントすることにより、消失点検出の品質を測定しました。それらと比較するために、この実験を再現し、この方法が最新の結果よりも優れていることを示します。
In this paper we introduce a novel neural network architecture based on Fast Hough Transform layer. The layer of this type allows our neural network to accumulate features from linear areas across the entire image instead of local areas. We demonstrate its potential by solving the problem of vanishing points detection in the images of documents. Such problem occurs when dealing with camera shots of the documents in uncontrolled conditions. In this case, the document image can suffer several specific distortions including projective transform. To train our model, we use MIDV-500 dataset and provide testing results. The strong generalization ability of the suggested method is proven with its applying to a completely different ICDAR 2011 dewarping contest. In previously published papers considering these dataset authors measured the quality of vanishing point detection by counting correctly recognized words with open OCR engine Tesseract. To compare with them, we reproduce this experiment and show that our method outperforms the state-of-the-art result.