視覚的グラウンディングは、多くの視覚言語タスクにおける遍在する構成要素であり、グラウンディングエンティティの視覚的および言語的特徴の大きなバリエーション、強力なコンテキスト効果、および結果として生じる意味的あいまいさにより、依然として挑戦的です。従来の研究は、通常、限られたコンテキスト情報で個々のフレーズの表現を学習することに焦点を当てています。それらの制限に対処するために、このペーパーでは、言語エンティティのグラフ表現を提案して、グラウンディングエンティティとその関係のグローバルコンテキストをキャプチャし、複数フレーズの視覚グラウンディングタスクのクロスモーダルグラフマッチング戦略を開発します。具体的には、メッセージ伝搬を介してフレーズとオブジェクト提案のコンテキスト認識表現をそれぞれ計算するモジュラーグラフニューラルネットワークを導入し、グラウンディングフレーズのグローバルに一貫したローカライズを生成するグラフベースのマッチングモジュールが続きます。グラフニューラルネットワーク全体を2段階の戦略で共同でトレーニングし、Flickr30Kエンティティベンチマークで評価します。広範な実験により、この方法が従来の技術よりもかなりのマージンで優れていることが示され、接地フレームワークの有効性が実証されています。コードは「https://github.com/youngfly11/LCMCG-PyTorch」で入手できます。
Visual grounding is a ubiquitous building block in many vision-language tasks and yet remains challenging due to large variations in visual and linguistic features of grounding entities, strong context effect and the resulting semantic ambiguities. Prior works typically focus on learning representations of individual phrases with limited context information. To address their limitations, this paper proposes a language-guided graph representation to capture the global context of grounding entities and their relations, and develop a cross-modal graph matching strategy for the multiple-phrase visual grounding task. In particular, we introduce a modular graph neural network to compute context-aware representations of phrases and object proposals respectively via message propagation, followed by a graph-based matching module to generate globally consistent localization of grounding phrases. We train the entire graph neural network jointly in a two-stage strategy and evaluate it on the Flickr30K Entities benchmark. Extensive experiments show that our method outperforms the prior state of the arts by a sizable margin, evidencing the efficacy of our grounding framework. Code is available at "https://github.com/youngfly11/LCMCG-PyTorch".