画像またはビデオの文の説明を自動的に生成する場合、生成されたキャプションがどれだけ適切に根拠付けられているか、つまり、モデルが特定の単語を出力するために正しい画像領域を使用しているかどうか、またはモデルがデータセットおよび/または言語モデル。キャプションモデルで画像領域と単語を関連付ける最も一般的な方法は、次の単語を予測するための入力として使用される領域に対する注意メカニズムです。したがって、モデルは、ローカライズする単語を知らなくても、注意の重みを予測することを学習する必要があります。再発モデルは過去の情報を伝搬する可能性があり、キャプションモデルに個々のデコードされた単語を適切に接地させるための明示的な信号がないため、これを接地監視なしでトレーニングすることは困難です。この作業では、センテンスデコーダーが生成した後、モデルに画像内の各単語をローカライズさせ、ローカライズされた画像領域から文を再構築して一致させる新しい循環トレーニングレジメンを使用して、モデルがこれを達成するのを支援しますグラウンドトゥルース。私たちが提案するフレームワークでは、完全に接続された1つの追加のレイヤー(ローカライザ)を学習するだけで済みます。これは、テスト時に削除できるレイヤーです。私たちのモデルは、画像とビデオの両方のキャプションタスクについて、接地の監視に依存したり、推論中に追加の計算を導入したりすることなく、接地の精度を大幅に向上させることを示しています。コードはhttps://github.com/chihyaoma/cyclical-visual-captioningで入手できます。
When automatically generating a sentence description for an image or video, it often remains unclear how well the generated caption is grounded, that is whether the model uses the correct image regions to output particular words, or if the model is hallucinating based on priors in the dataset and/or the language model. The most common way of relating image regions with words in caption models is through an attention mechanism over the regions that are used as input to predict the next word. The model must therefore learn to predict the attentional weights without knowing the word it should localize. This is difficult to train without grounding supervision since recurrent models can propagate past information and there is no explicit signal to force the captioning model to properly ground the individual decoded words. In this work, we help the model to achieve this via a novel cyclical training regimen that forces the model to localize each word in the image after the sentence decoder generates it, and then reconstruct the sentence from the localized image region(s) to match the ground-truth. Our proposed framework only requires learning one extra fully-connected layer (the localizer), a layer that can be removed at test time. We show that our model significantly improves grounding accuracy without relying on grounding supervision or introducing extra computation during inference, for both image and video captioning tasks. Code is available at https://github.com/chihyaoma/cyclical-visual-captioning .