arXiv reaDer
セマンティクス駆動型画像段落キャプション用のバイパスネットワーク
Bypass Network for Semantics Driven Image Paragraph Captioning
画像段落のキャプションは、一連の一貫した文で特定の画像を説明することを目的としています。ほとんどの既存のメソッドは、前の文からトピックベクトルを動的に推測するトピック遷移を通じてコヒーレンスをモデル化します。ただし、これらのメソッドは、生成された段落での即時または遅延の繰り返しに依然として悩まされます。これは、(i)構文とセマンティクスの絡み合いにより、トピックベクトルが適切な視覚領域に参加できなくなるためです。 (ii)長距離遷移を学習するための制約や報酬はほとんどありません。本論文では、先行文の意味論と言語構文を別々にモデル化するバイパスネットワークを提案する。具体的には、提案されたモデルは、トピック遷移モジュールと文生成モジュールの2つの主要モジュールで構成されています。前者は、以前のセマンティックベクトルをクエリとして受け取り、地域の特徴に注意メカニズムを適用して次のトピックベクトルを取得します。これにより、言語学が排除され、即時の繰り返しが減少します。後者は、トピックベクトルと前の構文状態をデコードして、次の文を生成します。生成された段落の繰り返しの遅延をさらに減らすために、REINFORCEトレーニングの置換ベースの報酬を考案します。広く使用されているベンチマークに関する包括的な実験は、高精度を維持しながら、コヒーレンスに関して提案されたモデルが最先端のものよりも優れていることを示しています。
Image paragraph captioning aims to describe a given image with a sequence of coherent sentences. Most existing methods model the coherence through the topic transition that dynamically infers a topic vector from preceding sentences. However, these methods still suffer from immediate or delayed repetitions in generated paragraphs because (i) the entanglement of syntax and semantics distracts the topic vector from attending pertinent visual regions; (ii) there are few constraints or rewards for learning long-range transitions. In this paper, we propose a bypass network that separately models semantics and linguistic syntax of preceding sentences. Specifically, the proposed model consists of two main modules, i.e. a topic transition module and a sentence generation module. The former takes previous semantic vectors as queries and applies attention mechanism on regional features to acquire the next topic vector, which reduces immediate repetition by eliminating linguistics. The latter decodes the topic vector and the preceding syntax state to produce the following sentence. To further reduce delayed repetition in generated paragraphs, we devise a replacement-based reward for the REINFORCE training. Comprehensive experiments on the widely used benchmark demonstrate the superiority of the proposed model over the state of the art for coherence while maintaining high accuracy.
updated: Tue Jun 21 2022 00:48:22 GMT+0000 (UTC)
published: Tue Jun 21 2022 00:48:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト