Visually Grounded Neural Syntax Acquisition
  明示的に監督することなく、構文表現と構造を学習するためのアプローチである、視覚的に接地されたニューラル構文学習器(VG-NSL)を紹介します。モデルは、自然な画像を見て、ペアのキャプションを読むことで学習します。 VG-NSLは、テキストの構成要素解析ツリーを生成し、構成要素の表現を再帰的に構成し、それらを画像と照合します。構成要素の具体性を画像との一致スコアによって定義し、それを使用してテキストの解析をガイドします。 MSCOCOデータセットの実験では、VG-NSLは、金の解析ツリーに対するF1スコアの観点から、視覚的なグラウンディングを使用しないさまざまな教師なし解析アプローチよりも優れていることが示されています。ランダム初期化の選択とトレーニングデータの量に関して、VGNSLははるかに安定していることがわかります。また、VG-NSLによって獲得された具体性は、言語学者によって定義された同様の尺度とよく相関することもわかります。最後に、VG-NSLをMulti30Kデータセット内の複数の言語に適用し、モデルが以前の教師なしアプローチより一貫して優れていることを示します。
We present the Visually Grounded Neural Syntax Learner (VG-NSL), an approach for learning syntactic representations and structures without any explicit supervision. The model learns by looking at natural images and reading paired captions. VG-NSL generates constituency parse trees of texts, recursively composes representations for constituents, and matches them with images. We define concreteness of constituents by their matching scores with images, and use it to guide the parsing of text. Experiments on the MSCOCO data set show that VG-NSL outperforms various unsupervised parsing approaches that do not use visual grounding, in terms of F1 scores against gold parse trees. We find that VGNSL is much more stable with respect to the choice of random initialization and the amount of training data. We also find that the concreteness acquired by VG-NSL correlates well with a similar measure defined by linguists. Finally, we also apply VG-NSL to multiple languages in the Multi30K data set, showing that our model consistently outperforms prior unsupervised approaches.
updated: Tue Sep 24 2019 18:29:51 GMT+0000 (UTC)
published: Fri Jun 07 2019 04:03:53 GMT+0000 (UTC)
