タスク固有のスコアは、条件付きテキスト生成システムのパフォーマンスを最適化および評価するためによく使用されます。ただし、このようなスコアは微分不可能であり、標準的な教師あり学習パラダイムでは使用できません。したがって、微分可能な目的を必要とせずに勾配を計算できるため、ポリシー勾配法が使用されます。ただし、報酬として使用される現在のn-gramオーバーラップベースの測定値は、文のペアの類似性を直接比較するタスクから転送されたモデルベースの報酬を使用することで改善できると主張します。これらの報酬モデルは、予測された文全体とターゲット文の間の文レベルの構文的および意味的類似性のスコアを期待リターンとして出力するか、中間フレーズに対してセグメント化された報酬として出力します。 \ textit {Transferable Reward Learnerを使用すると、画像キャプションタスクのポリシーグラデーションモデルでのセマンティック評価尺度の結果が向上することを示しています。 InferSentアクタークリティカルモデルは、ワードムーバーの距離の類似性尺度で6.97ポイント評価した場合、MSCOCOのBLEUトレーニング済みアクター批評モデルよりも改善され、スライディングウィンドウコサイン類似性尺度でも10.48ポイント改善します。同様のパフォーマンスの改善は、より小さなFlickr-30kデータセットでも得られており、提案された転送学習方法の一般的な適用性を示しています。
Task-specific scores are often used to optimize for and evaluate the performance of conditional text generation systems. However, such scores are non-differentiable and cannot be used in the standard supervised learning paradigm. Hence, policy gradient methods are used since the gradient can be computed without requiring a differentiable objective. However, we argue that current n-gram overlap based measures that are used as rewards can be improved by using model-based rewards transferred from tasks that directly compare the similarity of sentence pairs. These reward models either output a score of sentence-level syntactic and semantic similarity between entire predicted and target sentences as the expected return, or for intermediate phrases as segmented accumulative rewards. We demonstrate that using a \textit{Transferable Reward Learner leads to improved results on semantical evaluation measures in policy-gradient models for image captioning tasks. Our InferSent actor-critic model improves over a BLEU trained actor-critic model on MSCOCO when evaluated on a Word Mover's Distance similarity measure by 6.97 points, also improving on a Sliding Window Cosine Similarity measure by 10.48 points. Similar performance improvements are also obtained on the smaller Flickr-30k dataset, demonstrating the general applicability of the proposed transfer learning method.