arXiv reaDer
アテンションビーム:画像キャプションアプローチ
Attention Beam: An Image Captioning Approach
画像のキャプションの目的は、特定の画像のテキストによる説明を生成することです。人間にとっては簡単な作業のように見えますが、画像を理解する能力(コンピュータビジョン)が必要であり、その結果、画像の人間のような記述を生成する(自然言語理解)ため、機械にとっては困難です。最近では、エンコーダ-デコーダベースのアーキテクチャにより、画像のキャプションについて最先端の結果が得られています。ここでは、Flickr8k、Flickr30k、MS COCOの3つのベンチマークデータセットでより高品質のキャプションを提供する、エンコーダ-デコーダベースのアーキテクチャに基づくビーム検索のヒューリスティックを紹介します。
The aim of image captioning is to generate textual description of a given image. Though seemingly an easy task for humans, it is challenging for machines as it requires the ability to comprehend the image (computer vision) and consequently generate a human-like description for the image (natural language understanding). In recent times, encoder-decoder based architectures have achieved state-of-the-art results for image captioning. Here, we present a heuristic of beam search on top of the encoder-decoder based architecture that gives better quality captions on three benchmark datasets: Flickr8k, Flickr30k and MS COCO.
updated: Tue Nov 03 2020 14:57:42 GMT+0000 (UTC)
published: Tue Nov 03 2020 14:57:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト