arXiv reaDer
テキストからの知識を活用することによるシーングラフ分類の改善
Improving Scene Graph Classification by Exploiting Knowledge from Texts
シーングラフ分類モデルのトレーニングには、大量の注釈付き画像データが必要です。一方、シーングラフは、テキストまたは知識グラフからのシンボリックデータでモデル化できるリレーショナル知識を表します。画像の注釈には多大な労力が必要ですが、自然のシーンのテキストによる説明を収集するのに必要な労力は少なくて済みます。この作業では、テキストのシーンの説明が注釈付きの画像データの代わりに使用できるかどうかを調査します。この目的のために、注釈付き画像だけでなくシンボリックデータからもトレーニングされたシーングラフ分類フレームワークを採用しています。私たちのアーキテクチャでは、シンボリックエンティティは最初に対応する画像に基づいた表現にマッピングされ、次にリレーショナル推論パイプラインに送られます。知識グラフの形式など、構造化された形式の知識が常に利用できるとは限りませんが、トランスフォーマーベースの言語モデルを使用して非構造化テキストから生成できます。テキストから抽出された知識を使用して分類パイプラインを微調整することにより、教師ありベースラインと比較して、シーングラフ分類で約8倍、オブジェクト分類で約3倍、述語分類で約1.5倍の正確な結果を達成できることを示します。注釈付き画像のわずか1%。
Training scene graph classification models requires a large amount of annotated image data. Meanwhile, scene graphs represent relational knowledge that can be modeled with symbolic data from texts or knowledge graphs. While image annotation demands extensive labor, collecting textual descriptions of natural scenes requires less effort. In this work, we investigate whether textual scene descriptions can substitute for annotated image data. To this end, we employ a scene graph classification framework that is trained not only from annotated images but also from symbolic data. In our architecture, the symbolic entities are first mapped to their correspondent image-grounded representations and then fed into the relational reasoning pipeline. Even though a structured form of knowledge, such as the form in knowledge graphs, is not always available, we can generate it from unstructured texts using a transformer-based language model. We show that by fine-tuning the classification pipeline with the extracted knowledge from texts, we can achieve ~8x more accurate results in scene graph classification, ~3x in object classification, and ~1.5x in predicate classification, compared to the supervised baselines with only 1% of the annotated images.
updated: Fri Oct 08 2021 13:11:16 GMT+0000 (UTC)
published: Tue Feb 09 2021 11:21:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト