この記事では、対応するテキストエンティティと画像領域のコンテキストをキャプチャして、グラウンディングの精度を向上させるコンテキストグラウンディングアプローチを紹介します。具体的には、提案されたアーキテクチャは、事前トレーニング済みテキストトークンの埋め込みと、市販のオブジェクト検出器からの画像オブジェクト機能を入力として受け入れます。位置および空間情報をキャプチャするための追加のエンコードを追加して、機能の品質を向上させることができます。さまざまなモダリティのためにそれぞれのアーキテクチャの改良を容易にするテキストと画像の分岐があります。テキストブランチは大規模なマスク言語モデリングタスクで事前にトレーニングされ、イメージブランチはゼロからトレーニングされます。次に、モデルは、高次相互作用のレイヤーを介して、テキストトークンと画像オブジェクトのコンテキスト表現をそれぞれ学習します。最終的な接地ヘッドは、クロスモーダル相互作用を介してテキストと視覚的表現との対応関係をランク付けします。評価では、モデルがFlickr30Kエンティティデータセットを超える71.36%の最先端の接地精度を達成することを示しています。クロスモーダルダダセットでのタスクに依存しない、タスク固有の事前トレーニングを必要とすることが多い関連作業と比較して、競争力のある結果を提供するための追加の事前トレーニングは不要です。実装はhttps://gitlab.com/necla-ml/groundingで公開されています。
In this paper, we introduce a contextual grounding approach that captures the context in corresponding text entities and image regions to improve the grounding accuracy. Specifically, the proposed architecture accepts pre-trained text token embeddings and image object features from an off-the-shelf object detector as input. Additional encoding to capture the positional and spatial information can be added to enhance the feature quality. There are separate text and image branches facilitating respective architectural refinements for different modalities. The text branch is pre-trained on a large-scale masked language modeling task while the image branch is trained from scratch. Next, the model learns the contextual representations of the text tokens and image objects through layers of high-order interaction respectively. The final grounding head ranks the correspondence between the textual and visual representations through cross-modal interaction. In the evaluation, we show that our model achieves the state-of-the-art grounding accuracy of 71.36% over the Flickr30K Entities dataset. No additional pre-training is necessary to deliver competitive results compared with related work that often requires task-agnostic and task-specific pre-training on cross-modal dadasets. The implementation is publicly available at https://gitlab.com/necla-ml/grounding.