arXiv reaDer
ディープCNNと双方向ゲート付き回帰ユニットを使用したベンガル語のキャプション生成への画像
Image to Bengali Caption Generation Using Deep CNN and Bidirectional Gated Recurrent Unit
ベンガリ語の記述を生成することに関する注目すべき研究はほとんどありません。ベンガル語は約2億4300万人が話し、地球上で7番目に話されている言語です。この研究の目的は、画像からベンガル語の自然言語キャプションを生成するCNNおよび双方向GRUベースのアーキテクチャモデルを提案することです。ベンガルの人々はこの研究を利用して、言語の壁を打ち破り、お互いの視点をよりよく理解することができます。また、多くの視覚障害者の日常生活にも役立ちます。このホワイトペーパーでは、エンコーダとデコーダのアプローチを使用してキャプションを生成しました。キャプションを生成するためのデコーダーとして、データセットの画像の双方向ゲート付き回帰ユニット(BGRU)レイヤーの分析、分類、および注釈付けのためのエンコーダーとして、InceptonV3image埋め込みモデルと呼ばれる事前トレーニング済みのディープ畳み込みニューラルネットワーク(DCNN)を使用しました。 ArgmaxおよびBeam検索は、キャプションの可能な限り最高の品質を生成するために使用されます。 BNATUREと呼ばれる新しいデータセットが使用されます。これは、画像ごとに5つのキャプションを持つ8000の画像で構成されます。これは、提案されたモデルのトレーニングとテストに使用されます。 BLEU-1、BLEU-2、BLEU-3、BLEU-4を取得し、Meteorはそれぞれ42.6、27.95、23、66、16.41、28.7です。
There is very little notable research on generating descriptions of the Bengali language. About 243 million people speak in Bengali, and it is the 7th most spoken language on the planet. The purpose of this research is to propose a CNN and Bidirectional GRU based architecture model that generates natural language captions in the Bengali language from an image. Bengali people can use this research to break the language barrier and better understand each other's perspectives. It will also help many blind people with their everyday lives. This paper used an encoder-decoder approach to generate captions. We used a pre-trained Deep convolutional neural network (DCNN) called InceptonV3image embedding model as the encoder for analysis, classification, and annotation of the dataset's images Bidirectional Gated Recurrent unit (BGRU) layer as the decoder to generate captions. Argmax and Beam search is used to produce the highest possible quality of the captions. A new dataset called BNATURE is used, which comprises 8000 images with five captions per image. It is used for training and testing the proposed model. We obtained BLEU-1, BLEU-2, BLEU-3, BLEU-4 and Meteor is 42.6, 27.95, 23, 66, 16.41, 28.7 respectively.
updated: Tue Dec 22 2020 16:22:02 GMT+0000 (UTC)
published: Tue Dec 22 2020 16:22:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト