arXiv reaDer
技術文書分類のためのディープラーニング
Deep Learning for Technical Document Classification
大規模なテクノロジー企業では、関連する意思決定をサポートするためにエンジニアやマネージャーが作成した技術ドキュメントを管理および整理する必要性が近年劇的に高まっており、よりスケーラブルで正確な自動ドキュメント分類に対する需要が高まっています。以前の研究は分類のためのテキストの処理にのみ焦点を合わせていましたが、技術文書には多くの場合マルチモーダル情報が含まれています。このホワイトペーパーでは、技術ドキュメント分類のための新しいマルチモーダルディープラーニングアーキテクチャであるTechDocを紹介します。これは、ドキュメント内の自然言語テキストと説明画像、およびドキュメント間の関連付けを含む3種類の情報を利用します。このアーキテクチャは、統合されたマルチモーダルトレーニングプロセスを通じて、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、グラフニューラルネットワークを統合します。このアーキテクチャを大規模なマルチモーダル技術ドキュメントデータベースに適用し、階層的な国際特許分類システムに基づいてドキュメントを分類するためのモデルをトレーニングしました。私たちの結果は、TechDocがユニモーダルメソッドや他の最先端のメソッドよりも高い分類精度を提供することを示しています。
In large technology companies, the requirements for managing and organizing technical documents created by engineers and managers in supporting relevant decision making have increased dramatically in recent years, which has led to a higher demand for more scalable, accurate, and automated document classification. Prior studies have only focused on processing text for classification, whereas technical documents often contain multimodal information. This paper presents a novel multimodal deep learning architecture, TechDoc, for technical document classification, which utilizes three types of information, including natural language texts and descriptive images within documents and the associations among the documents. The architecture synthesizes the convolutional neural network, recurrent neural network, and graph neural network through an integrated multimodal training process. We applied the architecture to a large multimodal technical document database and trained the model for classifying documents based on the hierarchical International Patent Classification system. Our results show that TechDoc presents a greater classification accuracy than the unimodal methods and other state-of-the-art methods.
updated: Mon Oct 04 2021 04:25:35 GMT+0000 (UTC)
published: Sun Jun 27 2021 16:12:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト