arXiv reaDer
変更キャプション用の近隣対照変換器
Neighborhood Contrastive Transformer for Change Captioning
キャプション変更とは、類似した画像のペア間の意味の変化を自然言語で説明することです。これは、一般的な画像キャプションよりも困難です。これは、無関係な視点の変更に影響されないようにしながら、きめの細かい変更情報を取得し、変更の説明における構文のあいまいさを解決する必要があるためです。この論文では、異なるシーンの下でのさまざまな変化に対するモデルの知覚能力と複雑な構文構造に対する認知能力を改善するために、近傍対照変換器を提案します。具体的には、最初に、隣接するコンテキストを各機能に統合するように集約する隣接機能を設計します。これにより、目立つ指示対象のガイダンスの下で目立たない変更をすばやく見つけることができます。次に、近傍レベルで 2 つの画像を比較し、各画像から共通のプロパティを抽出して、それらの間の効果的な対比情報を学習する共通の特徴抽出を考案します。最後に、単語間の明示的な依存関係を導入して、変換デコーダーを調整します。これにより、トレーニング中に複雑な構文構造をよりよく理解できます。広範な実験結果は、提案された方法が、異なる変更シナリオを持つ 3 つの公開データセットで最先端のパフォーマンスを達成することを示しています。コードは https://github.com/tuyunbin/NCT で入手できます。
Change captioning is to describe the semantic change between a pair of similar images in natural language. It is more challenging than general image captioning, because it requires capturing fine-grained change information while being immune to irrelevant viewpoint changes, and solving syntax ambiguity in change descriptions. In this paper, we propose a neighborhood contrastive transformer to improve the model's perceiving ability for various changes under different scenes and cognition ability for complex syntax structure. Concretely, we first design a neighboring feature aggregating to integrate neighboring context into each feature, which helps quickly locate the inconspicuous changes under the guidance of conspicuous referents. Then, we devise a common feature distilling to compare two images at neighborhood level and extract common properties from each image, so as to learn effective contrastive information between them. Finally, we introduce the explicit dependencies between words to calibrate the transformer decoder, which helps better understand complex syntax structure during training. Extensive experimental results demonstrate that the proposed method achieves the state-of-the-art performance on three public datasets with different change scenarios. The code is available at https://github.com/tuyunbin/NCT.
updated: Mon Mar 06 2023 14:39:54 GMT+0000 (UTC)
published: Mon Mar 06 2023 14:39:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト