弱い監督された参照式のグラウンディングは、参照オブジェクトとクエリ間のマッピングがトレーニング段階で不明である言語クエリに従って、画像内の参照オブジェクトをローカライズすることを目的としています。この問題に対処するために、新しいエンドツーエンドの適応再構築ネットワーク(ARN)を提案します。画像領域の提案とクエリの間の対応を、適応的な方法で構築します:適応的グラウンディングと協調的再構築。具体的には、最初に件名、場所、コンテキストの特徴を抽出して、それぞれ提案とクエリを表します。次に、アダプティブグラウンディングモジュールを設計して、階層型アテンションモデルによって各提案とクエリ間のマッチングスコアを計算します。最後に、アテンションスコアと提案の特徴に基づいて、言語再構築損失、適応再構築損失、および属性分類損失の協調的損失を伴う入力クエリを再構築します。この適応メカニズムは、モデルが異なる参照式の分散を緩和するのに役立ちます。 4つの大規模なデータセットの実験は、ARNが既存の最先端の方法よりも大幅に優れていることを示しています。定性的結果は、提案されたARNが、特定のカテゴリの複数のオブジェクトが一緒に位置する状況をより適切に処理できることを示しています。
Weakly supervised referring expression grounding aims at localizing the referential object in an image according to the linguistic query, where the mapping between the referential object and query is unknown in the training stage. To address this problem, we propose a novel end-to-end adaptive reconstruction network (ARN). It builds the correspondence between image region proposal and query in an adaptive manner: adaptive grounding and collaborative reconstruction. Specifically, we first extract the subject, location and context features to represent the proposals and the query respectively. Then, we design the adaptive grounding module to compute the matching score between each proposal and query by a hierarchical attention model. Finally, based on attention score and proposal features, we reconstruct the input query with a collaborative loss of language reconstruction loss, adaptive reconstruction loss, and attribute classification loss. This adaptive mechanism helps our model to alleviate the variance of different referring expressions. Experiments on four large-scale datasets show ARN outperforms existing state-of-the-art methods by a large margin. Qualitative results demonstrate that the proposed ARN can better handle the situation where multiple objects of a particular category situated together.