arXiv reaDer
コンテキストアウェア補助ガイダンスによる画像キャプション
Image Captioning with Context-Aware Auxiliary Guidance
画像のキャプションは、画像の自然言語による説明を生成することを目的とした、やりがいのあるコンピュータビジョンタスクです。最近の研究は、現在の予測のために以前に生成された単語に大きく依存するエンコーダー-デコーダーフレームワークに従います。このような方法では、将来の予測情報を効果的に利用して完全なセマンティクスを学習することはできません。この論文では、グローバルコンテキストを認識するためにキャプションモデルを導くことができるコンテキストアウェア補助ガイダンス(CAAG)メカニズムを提案します。キャプションモデルに基づいて、CAAGは、現在の世代を再現するために、グローバル予測の有用な情報に選択的に集中するセマンティックアテンションを実行します。メソッドの適応性を検証するために、3つの人気のあるキャプション作成者にCAAGを適用し、提案は、挑戦的なMicrosoftCOCO画像キャプションベンチマークで競争力のあるパフォーマンスを達成します。オンライン評価サーバー。
Image captioning is a challenging computer vision task, which aims to generate a natural language description of an image. Most recent researches follow the encoder-decoder framework which depends heavily on the previous generated words for the current prediction. Such methods can not effectively take advantage of the future predicted information to learn complete semantics. In this paper, we propose Context-Aware Auxiliary Guidance (CAAG) mechanism that can guide the captioning model to perceive global contexts. Upon the captioning model, CAAG performs semantic attention that selectively concentrates on useful information of the global predictions to reproduce the current generation. To validate the adaptability of the method, we apply CAAG to three popular captioners and our proposal achieves competitive performance on the challenging Microsoft COCO image captioning benchmark, e.g. 132.2 CIDEr-D score on Karpathy split and 130.7 CIDEr-D (c40) score on official online evaluation server.
updated: Mon Jan 04 2021 01:52:43 GMT+0000 (UTC)
published: Thu Dec 10 2020 09:39:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト