A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor Approach for Image Captioning
画像の内容を説明するテキストベースの要約を生成するために、2つの一般的な画像キャプション方法を統合するハイブリッドモデルが提案されています。 2つの画像キャプションモデルは、Neural Image Caption(NIC)とk最近傍法です。これらは、トレーニングセットで個別にトレーニングされます。 2つのモデルの結果を評価するために、検証セットから5つの特徴のセットを抽出します。これらのモデルは、ロジスティック回帰分類器のトレーニングに使用されます。 2つのモデルのBLEU-4スコアを比較して、ロジスティック回帰分類器のバイナリ値グラウンドトゥルースを生成します。テストセットの場合、入力画像は最初に2つのモデルに別々に渡され、個々のキャプションが生成されます。 2つのモデルから抽出された5次元の特徴セットは、ロジスティック回帰分類器に渡され、モデルによって生成された2つのキャプションのうちの最良のものである生成された最終的なキャプションに関する決定を行います。ベンチマークFlickr8kデータセットで、k最近傍モデルの実装は15.95のBLEU-4スコアを達成し、NICモデルは16.01のBLEU-4スコアを達成します。提案されたハイブリッドモデルは、18.20のBLEU-4スコアを達成することができ、私たちのアプローチの有効性を証明しています。
A hybrid model is proposed that integrates two popular image captioning methods to generate a text-based summary describing the contents of the image. The two image captioning models are the Neural Image Caption (NIC) and the k-nearest neighbor approach. These are trained individually on the training set. We extract a set of five features, from the validation set, for evaluating the results of the two models that in turn is used to train a logistic regression classifier. The BLEU-4 scores of the two models are compared for generating the binary-value ground truth for the logistic regression classifier. For the test set, the input images are first passed separately through the two models to generate the individual captions. The five-dimensional feature set extracted from the two models is passed to the logistic regression classifier to take a decision regarding the final caption generated which is the best of two captions generated by the models. Our implementation of the k-nearest neighbor model achieves a BLEU-4 score of 15.95 and the NIC model achieves a BLEU-4 score of 16.01, on the benchmark Flickr8k dataset. The proposed hybrid model is able to achieve a BLEU-4 score of 18.20 proving the validity of our approach.
updated: Sun May 09 2021 03:49:14 GMT+0000 (UTC)
published: Sun May 09 2021 03:49:14 GMT+0000 (UTC)
