近年、sequence-to-sequence (seq2seq)モデルが人気を博しており、機械翻訳、見出し生成、テキスト要約、音声からテキストへの変換、画像キャプション生成などの幅広いタスクにおいて最先端の性能をもたらしている。これらのモデルの基本的なフレームワークは、通常、エンコーダとデコーダからなるディープニューラルネットワークである。単純なエンコーダ-デコーダモデルは競争力のある結果をもたらすが、多くの研究者がこれらのシーケンス-ツー-シーケンスモデルをさらに改良することを提案している。例えば、入力上の注意ベースモデル、ポインタ生成モデル、自己注意モデルを使用することである。しかし、そのようなseq2seqモデルは、次の2つの共通の問題に悩まされている:1)露出バイアス、および2)訓練/テスト間の測定の不整合。最近では、この2つの問題を解決するために、強化学習(RL)の手法を活用した全く新しい視点が登場している。本調査では、RLの観点からseq2seq問題を考察し、意思決定におけるRL手法の力と、長期記憶を記憶することを可能にするシーケンス間モデルを組み合わせた定式化を提供する。RLとディープニューラルネットワークの概念を組み合わせた最新のフレームワークをいくつか紹介し、複雑なseq2seqタスクを解く上で、これら2つの分野がどのように相互に利益をもたらすかを説明する。我々の作業の目的は、現在のアプローチで本質的に発生する問題のいくつかを洞察し、より優れたRLモデルでそれらの問題に対処する方法を提供することである。また、抽象化されたテキストの要約という複雑なタスクをサポートするために、本論文で議論されているRLモデルのほとんどを実装するためのソースコードを提供する。
In recent times, sequence-to-sequence (seq2seq) models have gained a lot of popularity and provide state-of-the-art performance in a wide variety of tasks such as machine translation, headline generation, text summarization, speech to text conversion, and image caption generation. The underlying framework for all these models is usually a deep neural network comprising an encoder and a decoder. Although simple encoder-decoder models produce competitive results, many researchers have proposed additional improvements over these sequence-to-sequence models, e.g., using an attention-based model over the input, pointer-generation models, and self-attention models. However, such seq2seq models suffer from two common problems: 1) exposure bias and 2) inconsistency between train/test measurement. Recently, a completely novel point of view has emerged in addressing these two problems in seq2seq models, leveraging methods from reinforcement learning (RL). In this survey, we consider seq2seq problems from the RL point of view and provide a formulation combining the power of RL methods in decision-making with sequence-to-sequence models that enable remembering long-term memories. We present some of the most recent frameworks that combine concepts from RL and deep neural networks and explain how these two areas could benefit from each other in solving complex seq2seq tasks. Our work aims to provide insights into some of the problems that inherently arise with current approaches and how we can address them with better RL models. We also provide the source code for implementing most of the RL models discussed in this paper to support the complex task of abstractive text summarization.