インターネットの普及に伴い、膨大な学術論文から特定の情報を効率的に抽出することがますます重要になっています。この問題を解決するには、通常、データ マイニング技術が使用されます。ただし、学術論文のデータマイニングは、複雑で構造化されていないレイアウト文書内の特定のパターンを自動的に抽出する必要があるため、困難です。学術論文の現在のデータ マイニング方法は、ルールベース (RB) または機械学習 (ML) アプローチを採用しています。ただし、ルールベースの方法を使用すると、複雑な植字記事のコーディング コストが高くなります。一方で、単純に機械学習手法を使用すると、論文内の複雑なコンテンツタイプに対する注釈作業が必要となり、コストがかかる可能性があります。さらに、機械学習のみを利用すると、ルールベースの手法で容易に認識できるパターンが誤って抽出されるケースが発生する可能性があります。これらの課題を解決するために、特定の出版物で使用されている標準的なレイアウトと組版を分析する観点から、学術論文の特定の特性に応じた具体的な手法を導入することに重点を置いています。私たちは、機械学習とルールベースのスキームをハイブリッドした新しい Text Block Refinement Framework (TBRF) を開発しました。検証実験の実験データとして、著名な ACL 論文を使用しました。実験では、私たちのアプローチが表と図について 95% 以上の分類精度と 90% 以上の検出精度を達成したことを示しています。
With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures.