科学文書のスキャン画像上のオブジェクト検出の問題を研究しています。さまざまな縦横比とサイズのオブジェクトを含む画像を検討し、表や図などの粗い要素から方程式やセクションヘッダーなどの細かい要素までの範囲を検討します。現在のオブジェクト検出器は、そのようなページオブジェクト上で適切にローカライズされた領域の提案を作成できないことがわかります。元のR-CNNモデルを再検討し、ドキュメント要素に対してきめ細かい提案を生成する方法を示します。また、提案の近隣の畳み込みマップをコンテキストとして使用して、各提案の埋め込みを作成する領域埋め込みモデルを提示します。この領域の埋め込みにより、ターゲット領域とその周囲のコンテキストとのセマンティックな関係をキャプチャできます。エンドツーエンドモデルは、各提案の埋め込みを作成し、提案の最も重要な隣人に注意を向けるマルチヘッドアテンションモデルを使用して、各提案を分類します。モデルを評価するために、異種ジャーナルから出版物のデータセットを収集して注釈を付けます。 Attentive-RCNNと呼ばれるこのモデルは、標準のオブジェクト検出モデルと比較して17%のmAP改善をもたらすことを示しています。
We study the problem of object detection over scanned images of scientific documents. We consider images that contain objects of varying aspect ratios and sizes and range from coarse elements such as tables and figures to fine elements such as equations and section headers. We find that current object detectors fail to produce properly localized region proposals over such page objects. We revisit the original R-CNN model and present a method for generating fine-grained proposals over document elements. We also present a region embedding model that uses the convolutional maps of a proposal's neighbors as context to produce an embedding for each proposal. This region embedding is able to capture the semantic relationships between a target region and its surrounding context. Our end-to-end model produces an embedding for each proposal, then classifies each proposal by using a multi-head attention model that attends to the most important neighbors of a proposal. To evaluate our model, we collect and annotate a dataset of publications from heterogeneous journals. We show that our model, referred to as Attentive-RCNN, yields a 17% mAP improvement compared to standard object detection models.