arXiv reaDer
画像キャプション担当者は、目にする画像以上のことを伝えることがあります
Image Captioners Sometimes Tell More Than Images They See
与えられた画像から説明テキストを生成する画像キャプション、別名「画像からテキスト」は、ディープ ラーニングの時代を通じて急速に発展してきました。元の画像の情報は、画像キャプション作成者によって生成される説明テキストにどの程度保存されていますか?その質問に答えるために、画像をまったく参照せずに説明テキストのみから画像を分類する実験を行い、結果を標準の画像ベースの分類子の結果と比較しました。災害画像分類タスクであるCrisisNLPに関していくつかの画像キャプションモデルを評価し、説明テキスト分類子が標準の画像ベース分類子よりも高い精度を達成できる場合があることを示しています。さらに、画像ベースの分類器と説明テキストの分類器を融合させると、精度が向上することを示します。
Image captioning, a.k.a. "image-to-text," which generates descriptive text from given images, has been rapidly developing throughout the era of deep learning. To what extent is the information in the original image preserved in the descriptive text generated by an image captioner? To answer that question, we have performed experiments involving the classification of images from descriptive text alone, without referring to the images at all, and compared results with those from standard image-based classifiers. We have evaluate several image captioning models with respect to a disaster image classification task, CrisisNLP, and show that descriptive text classifiers can sometimes achieve higher accuracy than standard image-based classifiers. Further, we show that fusing an image-based classifier with a descriptive text classifier can provide improvement in accuracy.
updated: Thu May 11 2023 03:58:29 GMT+0000 (UTC)
published: Thu May 04 2023 15:32:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト