ビデオ支援文法誘導は、ビデオ情報を活用して、付随するテキストのより正確な構文文法を見つけることを目的としています。以前の研究では、ビデオ コンテンツと適切に連携するテキストの文法を誘導するシステムの構築に焦点を当てていましたが、テキストとビデオが緩やかに対応しているシナリオを調査します。このようなデータはオンラインで豊富に見つけることができ、弱い対応は言語習得で研究されている不確定性の問題に似ています。さらに、以前の研究で採用された手動で設計された機能を使用せずに、ビデオスパン相関をより適切に学習できる新しいモデルを構築します。実験では、ドメイン シフトとノイズの多いラベルの問題にもかかわらず、テキストとビデオのアラインメントがない大規模な YouTube データのみでトレーニングされたモデルが、3 つの目に見えないデータセット全体で強力で堅牢なパフォーマンスを報告することが示されています。さらに、私たちのモデルは、ドメイン内データでトレーニングされた以前の最先端のシステムよりも高い F1 スコアをもたらします。
Video-aided grammar induction aims to leverage video information for finding more accurate syntactic grammars for accompanying text. While previous work focuses on building systems for inducing grammars on text that are well-aligned with video content, we investigate the scenario, in which text and video are only in loose correspondence. Such data can be found in abundance online, and the weak correspondence is similar to the indeterminacy problem studied in language acquisition. Furthermore, we build a new model that can better learn video-span correlation without manually designed features adopted by previous work. Experiments show that our model trained only on large-scale YouTube data with no text-video alignment reports strong and robust performances across three unseen datasets, despite domain shift and noisy label issues. Furthermore our model yields higher F1 scores than the previous state-of-the-art systems trained on in-domain data.