画像キャプションは、畳み込みニューラルネットワーク(CNN)と長期短期記憶(LSTM)を組み合わせたエンコーダーデコーダーモデルが有望な結果を達成する研究ホットスポットです。大幅な進歩にもかかわらず、これらのモデルは人間の認知スタイルとは異なる文を生成します。既存のモデルは、多くの場合、文全体に対する次の単語の影響を考慮せずに、最初の単語から最後まで完全な文を生成します。この論文では、人間のような認知スタイルの利用、つまり、コンピューター画像の理解を高めるために、記述される画像と構築される文に対する全体的な認知の構築を検討します。この論文ではまず、全体的なコンテキスト情報を取得するために、双方向LSTM(MaBi-LSTM)を備えた相互支援ネットワーク構造を提案します。トレーニングプロセスでは、前方および後方LSTMは、補完的な方法で文全体を同時に構築することにより、後続の単語と先行する単語をそれぞれの隠された状態にエンコードします。キャプションプロセスでは、LSTMは非表示の状態に含まれる後続のセマンティック情報を暗黙的に利用します。実際、MaBi-LSTMは、順方向と逆方向の2つの文を生成できます。クロスドメインモデル間のギャップを埋め、より高品質の文を生成するために、画像の顕著な部分だけでなく、その顕著な部分を融合することにより、2つの文をレタッチするクロスモーダルな注意メカニズムをさらに開発します。 Microsoft COCOデータセットの実験結果は、提案されたモデルがエンコーダーデコーダーモデルのパフォーマンスを改善し、最先端の結果を達成することを示しています。
Image captioning is a research hotspot where encoder-decoder models combining convolutional neural network (CNN) and long short-term memory (LSTM) achieve promising results. Despite significant progress, these models generate sentences differently from human cognitive styles. Existing models often generate a complete sentence from the first word to the end, without considering the influence of the following words on the whole sentence generation. In this paper, we explore the utilization of a human-like cognitive style, i.e., building overall cognition for the image to be described and the sentence to be constructed, for enhancing computer image understanding. This paper first proposes a Mutual-aid network structure with Bidirectional LSTMs (MaBi-LSTMs) for acquiring overall contextual information. In the training process, the forward and backward LSTMs encode the succeeding and preceding words into their respective hidden states by simultaneously constructing the whole sentence in a complementary manner. In the captioning process, the LSTM implicitly utilizes the subsequent semantic information contained in its hidden states. In fact, MaBi-LSTMs can generate two sentences in forward and backward directions. To bridge the gap between cross-domain models and generate a sentence with higher quality, we further develop a cross-modal attention mechanism to retouch the two sentences by fusing their salient parts as well as the salient areas of the image. Experimental results on the Microsoft COCO dataset show that the proposed model improves the performance of encoder-decoder models and achieves state-of-the-art results.