参照表現は、シーン内の特定のオブジェクトを識別する自然言語の記述であり、日常の会話で広く使用されています。この作業では、参照式で指定された画像内のオブジェクトのセグメント化に焦点を当てます。この目的のために、言語と視覚エンコーダーで構成され、両方のドメインから特徴表現を抽出する、エンドツーエンドの訓練可能な理解ネットワークを提案します。テキストからイメージに知識を転送し、指定されたオブジェクトの空間情報を効果的にキャプチャするために、空間認識動的フィルターを導入します。言語と視覚モジュール間のコミュニケーションを改善するために、キャプション生成ネットワークを採用し、両方のドメインで共有される機能を入力として使用し、生成された文を指定された参照表現に類似するように強制する一貫性によって両方の表現を改善します。 2つの参照式データセットで提案されたフレームワークを評価し、本手法が最先端のアルゴリズムに対して良好に機能することを示します。
Referring expressions are natural language descriptions that identify a particular object within a scene and are widely used in our daily conversations. In this work, we focus on segmenting the object in an image specified by a referring expression. To this end, we propose an end-to-end trainable comprehension network that consists of the language and visual encoders to extract feature representations from both domains. We introduce the spatial-aware dynamic filters to transfer knowledge from text to image, and effectively capture the spatial information of the specified object. To better communicate between the language and visual modules, we employ a caption generation network that takes features shared across both domains as input, and improves both representations via a consistency that enforces the generated sentence to be similar to the given referring expression. We evaluate the proposed framework on two referring expression datasets and show that our method performs favorably against the state-of-the-art algorithms.