arXiv reaDer
制御可能な画像キャプションのための言語駆動型リージョンポインタの進歩
Language-Driven Region Pointer Advancement for Controllable Image Captioning
制御可能な画像キャプションは、画像キャプションのマルチモーダルタスクの最近のサブフィールドであり、生成された自然言語キャプションで画像内のどの領域を記述するかについて制約が課せられます。これにより、より詳細な説明を作成することに重点が置かれ、結果をエンドユーザーがより細かく制御できるようになります。 Controllable Image Captioningアーキテクチャの重要なコンポーネントは、リージョンポインタの前進を通じて、各リージョンに参加するタイミングを決定するメカニズムです。本論文では、トレーニングデータの文構造との強い相関関係を動機として、NEXTトークンを介して言語構造の自然な部分として前進ステップを扱うことにより、領域ポインタの前進のタイミングを予測する新しい方法を提案します。私たちのタイミングは、Flickr30kエンティティのテストデータのグラウンドトゥルースタイミングと86.55%の精度と97.92%のリコールで一致していることがわかります。この手法を実装するモデルは、標準のキャプションメトリックの最新技術を改善すると同時に、かなり大きな有効語彙サイズを示します。
Controllable Image Captioning is a recent sub-field in the multi-modal task of Image Captioning wherein constraints are placed on which regions in an image should be described in the generated natural language caption. This puts a stronger focus on producing more detailed descriptions, and opens the door for more end-user control over results. A vital component of the Controllable Image Captioning architecture is the mechanism that decides the timing of attending to each region through the advancement of a region pointer. In this paper, we propose a novel method for predicting the timing of region pointer advancement by treating the advancement step as a natural part of the language structure via a NEXT-token, motivated by a strong correlation to the sentence structure in the training data. We find that our timing agrees with the ground-truth timing in the Flickr30k Entities test data with a precision of 86.55% and a recall of 97.92%. Our model implementing this technique improves the state-of-the-art on standard captioning metrics while additionally demonstrating a considerably larger effective vocabulary size.
updated: Mon Nov 30 2020 15:34:59 GMT+0000 (UTC)
published: Mon Nov 30 2020 15:34:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト