arXiv reaDer
R ^ 3Net:変更キャプションのための関係埋め込み表現再構築ネットワーク
R^3Net:Relation-embedded Representation Reconstruction Network for Change Captioning
キャプションの変更は、自然言語の文を使用して、2つの類似した画像間のきめ細かい不一致を説明することです。視点の変更は、オブジェクトのスケールと場所を変更し、実際の変更の表現を圧倒するため、このタスクで最も一般的な気を散らすものです。この論文では、関係埋め込み表現再構成ネットワーク(R ^ 3Net)を提案して、実際の変更を大量の乱雑で無関係な変更から明示的に区別します。具体的には、関係が埋め込まれたモジュールが最初に考案され、大量の混乱の中で潜在的に変更されたオブジェクトを探索します。次に、2つの画像内の対応する位置の意味的類似性に基づいて、表現再構成モジュール(RRM)が設計され、再構成表現を学習し、差分表現をさらにモデル化します。さらに、変更のローカリゼーションとキャプションの生成の間のセマンティックな相互作用を強化するために、構文スケルトンプレディクター(SSP)を導入します。広範な実験は、提案された方法が2つの公開データセットで最先端の結果を達成することを示しています。
Change captioning is to use a natural language sentence to describe the fine-grained disagreement between two similar images. Viewpoint change is the most typical distractor in this task, because it changes the scale and location of the objects and overwhelms the representation of real change. In this paper, we propose a Relation-embedded Representation Reconstruction Network (R^3Net) to explicitly distinguish the real change from the large amount of clutter and irrelevant changes. Specifically, a relation-embedded module is first devised to explore potential changed objects in the large amount of clutter. Then, based on the semantic similarities of corresponding locations in the two images, a representation reconstruction module (RRM) is designed to learn the reconstruction representation and further model the difference representation. Besides, we introduce a syntactic skeleton predictor (SSP) to enhance the semantic interaction between change localization and caption generation. Extensive experiments show that the proposed method achieves the state-of-the-art results on two public datasets.
updated: Wed Oct 20 2021 00:57:39 GMT+0000 (UTC)
published: Wed Oct 20 2021 00:57:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト