arXiv reaDer
技術文書分類のためのディープラーニング
Deep Learning for Technical Document Classification
大規模なテクノロジー企業では、関連する意思決定をサポートするためにエンジニアやマネージャーが作成した技術ドキュメントを管理および整理する必要性が近年劇的に高まっており、よりスケーラブルで正確な自動ドキュメント分類に対する需要が高まっています。以前の研究は、主に分類および小規模データベースのテキスト処理に焦点を合わせていました。このホワイトペーパーでは、TechDocと呼ばれる、技術文書分類のための新しいマルチモーダル深層学習アーキテクチャについて説明します。これは、自然言語と記述画像の両方を利用して階層分類子をトレーニングします。このアーキテクチャは、統合されたトレーニングプロセスを通じて、畳み込みニューラルネットワークとリカレントニューラルネットワークを合成します。このアーキテクチャを大規模なマルチモーダル技術ドキュメントデータベースに適用し、階層的な国際特許分類システムに基づいてドキュメントを分類するためのモデルをトレーニングしました。私たちの結果は、訓練されたニューラルネットワークが単一のモダリティといくつかの以前のテキスト分類方法を使用したものよりも高い分類精度を示すことを示しています。トレーニングされたモデルは、テキストと図の両方を含む数百万の実際の技術文書に拡張できる可能性があります。これは、大規模なテクノロジー企業や組織のデータと知識の管理に役立ちます。
In large technology companies, the requirements for managing and organizing technical documents created by engineers and managers in supporting relevant decision making have increased dramatically in recent years, which has led to a higher demand for more scalable, accurate, and automated document classification. Prior studies have primarily focused on processing text for classification and small-scale databases. This paper describes a novel multimodal deep learning architecture, called TechDoc, for technical document classification, which utilizes both natural language and descriptive images to train hierarchical classifiers. The architecture synthesizes convolutional neural networks and recurrent neural networks through an integrated training process. We applied the architecture to a large multimodal technical document database and trained the model for classifying documents based on the hierarchical International Patent Classification system. Our results show that the trained neural network presents a greater classification accuracy than those using a single modality and several earlier text classification methods. The trained model can potentially be scaled to millions of real-world technical documents with both text and figures, which is useful for data and knowledge management in large technology companies and organizations.
updated: Sun Jun 27 2021 16:12:47 GMT+0000 (UTC)
published: Sun Jun 27 2021 16:12:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト