従来の句グラウンディングは、特定のキャプションで言及されている名詞句を対応する画像領域にローカライズすることを目的としており、最近大きな成功を収めています。どうやら、唯一の名詞句のグラウンディングは、クロスモーダルな視覚的言語理解には十分ではありません。ここでは、代名詞も考慮してタスクを拡張します。まず、画像領域に対する名詞句と代名詞の両方を使用して、句接地のデータセットを構築します。データセットに基づいて、この行の最先端の文献モデルを使用して、フレーズ グラウンディングのパフォーマンスをテストします。次に、グラフ畳み込みネットワークを使用して共参照構造をモデル化し、タスクを潜在的に助ける共参照情報でベースライン接地モデルを強化します。興味深いことに、私たちのデータセットの実験では、代名詞は名詞句よりも接地しやすいことが示されています。考えられる理由は、これらの代名詞がはるかにあいまいではないことです。さらに、相互参照情報を備えた最終モデルは、名詞句と代名詞の両方のグラウンディング パフォーマンスを大幅に向上させることができます。
Conventional phrase grounding aims to localize noun phrases mentioned in a given caption to their corresponding image regions, which has achieved great success recently. Apparently, sole noun phrase grounding is not enough for cross-modal visual language understanding. Here we extend the task by considering pronouns as well. First, we construct a dataset of phrase grounding with both noun phrases and pronouns to image regions. Based on the dataset, we test the performance of phrase grounding by using a state-of-the-art literature model of this line. Then, we enhance the baseline grounding model with coreference information which should help our task potentially, modeling the coreference structures with graph convolutional networks. Experiments on our dataset, interestingly, show that pronouns are easier to ground than noun phrases, where the possible reason might be that these pronouns are much less ambiguous. Additionally, our final model with coreference information can significantly boost the grounding performance of both noun phrases and pronouns.