arXiv reaDer
画像キャプション用の反射型デコードネットワーク
Reflective Decoding Network for Image Captioning
  最先端の画像キャプション手法は主に視覚機能の改善に焦点を当てており、キャプションのパフォーマンスを向上させるために言語固有の特性を利用することにあまり注意が払われていません。本稿では、高品質の画像キャプションを生成するために、単語と文の構文パラダイムとの間の語彙の一貫性も重要であることを示します。従来のエンコーダ/デコーダフレームワークに続いて、キャプションデコーダ内の単語の長シーケンス依存性と位置認識の両方を強化する、画像キャプション用のReflective Decoding Network(RDN)を提案します。私たちのモデルは、視覚的特徴とテキスト的特徴の両方に協力して参加し、生成されたキャプションで提供される情報を最大化するために、文中の各単語の相対的な位置を知覚します。 CODN画像キャプションデータセットに対するRDNの有効性を評価し、以前の方法よりも優れたパフォーマンスを実現します。さらなる実験により、複雑なシーンをキャプションで記述するのが難しいケースでは、このアプローチが特に有利であることが明らかになりました。
State-of-the-art image captioning methods mostly focus on improving visual features, less attention has been paid to utilizing the inherent properties of language to boost captioning performance. In this paper, we show that vocabulary coherence between words and syntactic paradigm of sentences are also important to generate high-quality image caption. Following the conventional encoder-decoder framework, we propose the Reflective Decoding Network (RDN) for image captioning, which enhances both the long-sequence dependency and position perception of words in a caption decoder. Our model learns to collaboratively attend on both visual and textual features and meanwhile perceive each word's relative position in the sentence to maximize the information delivered in the generated caption. We evaluate the effectiveness of our RDN on the COCO image captioning datasets and achieve superior performance over the previous methods. Further experiments reveal that our approach is particularly advantageous for hard cases with complex scenes to describe by captions.
updated: Fri Aug 30 2019 16:25:55 GMT+0000 (UTC)
published: Fri Aug 30 2019 16:25:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト