ほとんどのRNNベースの画像キャプションモデルは、人間のキャプションを模倣するために、出力語の監視を受けます。したがって、隠れ状態は、時間の経過とともに逆伝播するレイヤーを介してノイズの多い勾配信号のみを受信でき、キャプションの生成精度が低下します。その結果、キャプションデコーダーの隠された状態を、画像に条件付けられたキャプションを自動エンコードする簡単なタスクで訓練された教師デコーダーの状態に一致させる新しいフレームワーク、Hidden State Guidance(HSG)を提案します。 REINFORCEアルゴリズムを使用したトレーニング中、従来の報酬は、関連性に関係なく、生成された各単語に均等に分配される文ベースの評価指標です。 HSGは、モデルがより優れた隠された表現を学習するのに役立つ単語レベルの報酬を提供します。実験結果は、HSGが生の画像または検出されたオブジェクトを入力として使用して、さまざまな最先端のキャプションデコーダよりも明らかに優れていることを示しています。
Most RNN-based image captioning models receive supervision on the output words to mimic human captions. Therefore, the hidden states can only receive noisy gradient signals via layers of back-propagation through time, leading to less accurate generated captions. Consequently, we propose a novel framework, Hidden State Guidance (HSG), that matches the hidden states in the caption decoder to those in a teacher decoder trained on an easier task of autoencoding the captions conditioned on the image. During training with the REINFORCE algorithm, the conventional rewards are sentence-based evaluation metrics equally distributed to each generated word, no matter their relevance. HSG provides a word-level reward that helps the model learn better hidden representations. Experimental results demonstrate that HSG clearly outperforms various state-of-the-art caption decoders using either raw images or detected objects as inputs.