arXiv reaDer
見て、読んで、豊かにしてください。科学的な数字とそのキャプションから学ぶ
Look, Read and Enrich. Learning from Scientific Figures and their Captions
  自然な画像と比較して、科学的な数字を理解することは機械にとって特に困難です。しかし、科学文献には貴重な情報源があり、これまで未開発のままでした:数字とそのキャプションの対応。この論文では、多数の図を見てそのキャプションを読むことで何が学習できるかを調査し、観察を利用する図とキャプションの対応学習タスクを紹介します。このタスクを正常に解決するために、制約のない図とキャプションのペア以外の監督なしで視覚および言語ネットワークをトレーニングすることが示されています。また、知識グラフから語彙知識と意味知識を転送すると、結果として得られる機能が大幅に充実することも示しています。最後に、マルチモーダル分類や質問応答のための機械理解、教師付きベースラインを上回る、アドホックなアプローチなど、科学的なテキストや図を含む他のタスクにおけるこのような機能のプラスの影響を示します。
Compared to natural images, understanding scientific figures is particularly hard for machines. However, there is a valuable source of information in scientific literature that until now has remained untapped: the correspondence between a figure and its caption. In this paper we investigate what can be learnt by looking at a large number of figures and reading their captions, and introduce a figure-caption correspondence learning task that makes use of our observations. Training visual and language networks without supervision other than pairs of unconstrained figures and captions is shown to successfully solve this task. We also show that transferring lexical and semantic knowledge from a knowledge graph significantly enriches the resulting features. Finally, we demonstrate the positive impact of such features in other tasks involving scientific text and figures, like multi-modal classification and machine comprehension for question answering, outperforming supervised baselines and ad-hoc approaches.
updated: Thu Sep 19 2019 16:10:15 GMT+0000 (UTC)
published: Thu Sep 19 2019 16:10:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト