学習された調整信号の動的重み付け(注意)は、さまざまな設定で神経言語の生成を改善することが示されています。特定の出力シーケンスを生成するときに適用される重みは、ジェネレーターの内部動作に対する潜在的な説明的洞察を提供するものとしても見られています。このホワイトペーパーでは、この接続の方向を逆にして、モデルの注意を制御することで、その出力を制御できるかどうかを尋ねます。具体的には、注意を使用する標準的なニューラル画像キャプションモデルを採用し、画像内の所定の領域に注意を固定します。結果の出力が、通常生成されるキャプションよりも、その領域のオブジェクトのクラスに言及する可能性が高いかどうかを評価します。注意を制御する3つの効果的な方法を紹介し、これらが最大28.56%のケースで期待される結果を生み出していることを発見します。
Learned dynamic weighting of the conditioning signal (attention) has been shown to improve neural language generation in a variety of settings. The weights applied when generating a particular output sequence have also been viewed as providing a potentially explanatory insight into the internal workings of the generator. In this paper, we reverse the direction of this connection and ask whether through the control of the attention of the model we can control its output. Specifically, we take a standard neural image captioning model that uses attention, and fix the attention to pre-determined areas in the image. We evaluate whether the resulting output is more likely to mention the class of the object in that area than the normally generated caption. We introduce three effective methods to control the attention and find that these are producing expected results in up to 28.56% of the cases.