arXiv reaDer
画像キャプションにおける注意機構を用いたTransformerとLSTMネットワークの比較検討
Comparative study of Transformer and LSTM Network with attention mechanism on Image Captioning
生成的知能の現在の時代におけるグローバル化された世界では、手作業のタスクのほとんどが自動化され、効率が向上しています。これにより、企業は時間とお金を節約できます。生成的知能の重要な要素は、視覚と言語の統合です。その結果、画像キャプションは興味深い研究分野になります。研究者は、さまざまな深層学習アーキテクチャを使用してこの問題を解決しようと何度も試みましたが、精度は向上しましたが、結果はまだ標準に達していません.この研究は、画像キャプションの標準的なデータセットである MS-COCO データセットで、Transformer と LSTM をアテンション ブロック モデルと比較したものです。両方のモデルで、画像の特徴抽出に事前トレーニング済みの Inception-V3 CNN エンコーダーを使用しました。 Bilingual Evaluation Understudy スコア (BLEU) を使用して、両方のモデルで生成されたキャプションの精度をチェックします。アテンション ブロック モデルを備えたトランスと LSTM に加えて、CLIP 拡散モデル、M2 トランスフォーマー モデル、および X リニア アテンション モデルが最先端の精度で議論されています。
In a globalized world at the present epoch of generative intelligence, most of the manual labour tasks are automated with increased efficiency. This can support businesses to save time and money. A crucial component of generative intelligence is the integration of vision and language. Consequently, image captioning become an intriguing area of research. There have been multiple attempts by the researchers to solve this problem with different deep learning architectures, although the accuracy has increased, but the results are still not up to standard. This study buckles down to the comparison of Transformer and LSTM with attention block model on MS-COCO dataset, which is a standard dataset for image captioning. For both the models we have used pretrained Inception-V3 CNN encoder for feature extraction of the images. The Bilingual Evaluation Understudy score (BLEU) is used to checked the accuracy of caption generated by both models. Along with the transformer and LSTM with attention block models,CLIP-diffusion model, M2-Transformer model and the X-Linear Attention model have been discussed with state of the art accuracy.
updated: Sun Mar 05 2023 11:45:53 GMT+0000 (UTC)
published: Sun Mar 05 2023 11:45:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト