Representing text as abstract images enables image classifiers to also simultaneously classify text
 テキストデータを抽象的な画像表現に変換する新しい方法を紹介します。これにより、画像ベースの処理技術(画像分類ネットワークなど)をテキストベースの比較問題に適用できます。この手法は、米国特許の発明者名の明確化に適用されます。この方法では、2つの発明者名レコード間の各ペアワイズ比較からのテキストを2D RGB(スタック)イメージ表現に変換します。次に、そのようなペアワイズ比較画像を区別するために画像分類ニューラルネットワークをトレーニングし、トレーニングされたネットワークを使用して、レコードの各ペアに一致(発明者と同じ)または不一致(異なる発明者)としてラベル付けし、非常に正確な結果を取得します。新しいテキストから画像への表現方法は、学術出版物の曖昧性解消など、他のNLP比較問題、またはテキストと画像の両方のデータセットの同時分類を必要とする問題にも、より広く使用できます。
We introduce a novel method for converting text data into abstract image representations, which allows image-based processing techniques (e.g. image classification networks) to be applied to text-based comparison problems. We apply the technique to entity disambiguation of inventor names in US patents. The method involves converting text from each pairwise comparison between two inventor name records into a 2D RGB (stacked) image representation. We then train an image classification neural network to discriminate between such pairwise comparison images, and use the trained network to label each pair of records as either matched (same inventor) or non-matched (different inventors), obtaining highly accurate results. Our new text-to-image representation method could also be used more broadly for other NLP comparison problems, such as disambiguation of academic publications, or for problems that require simultaneous classification of both text and image datasets.
updated: Thu Feb 06 2020 07:28:03 GMT+0000 (UTC)
published: Mon Aug 19 2019 17:28:29 GMT+0000 (UTC)
