この論文では、与えられた入力画像に対して陽気なキャプションを生成できる新しいアーキテクチャについて説明します。アーキテクチャは2つに分割されます。つまり、画像のキャプションと陽気なテキスト変換です。アーキテクチャは、事前にトレーニングされたCNNモデル、この実装ではVGG16から始まり、通常のキャプションを生成するためにLSTMに注意を適用します。これらの通常のキャプションは、入力画像のコンテキストを維持しながら、このテキストを陽気なものに変換する陽気なテキスト変換トランスフォーマーに転送されます。アーキテクチャを2つに分割することもでき、seq2seqトランスフォーマーのみを使用して、文章を入力することで陽気なキャプションを生成できます。このペーパーは、CATNetを使用してキャプションを生成することにより、日常のユーザーがより怠惰で陽気なことを同時に実現できるようにすることを目的としています。
In this paper, we describe a novel architecture which can generate hilarious captions for a given input image. The architecture is split into two halves, i.e. image captioning and hilarious text conversion. The architecture starts with a pre-trained CNN model, VGG16 in this implementation, and applies attention LSTM on it to generate normal caption. These normal captions then are fed forward to our hilarious text conversion transformer which converts this text into something hilarious while maintaining the context of the input image. The architecture can also be split into two halves and only the seq2seq transformer can be used to generate hilarious caption by inputting a sentence.This paper aims to help everyday user to be more lazy and hilarious at the same time by generating captions using CATNet.