arXiv reaDer
マルチモーダル空間エンコーディングと顔埋め込みで強化されたミーム感情分析
Meme Sentiment Analysis Enhanced with Multimodal Spatial Encoding and Facial Embedding
インターネットミームは、視覚要素の間にテキストが散在していることを特徴としています。最先端のマルチモーダル ミーム分類子は、テキストと視覚要素が配置される場所に関連する潜在的な意味にもかかわらず、2 つのモダリティにわたるこれらの要素の相対的な位置を考慮していません。 2 つのミーム感情分類データセットに対して、ミームから抽出された視覚オブジェクト、顔、およびテキスト クラスターの空間位置を組み込むことによるパフォーマンスの向上を体系的に示します。さらに、マルチモーダルなミーム分類器での画像表現に対する影響力のある強化として、顔の埋め込みも提示します。最後に、この空間情報を組み込むことで、完全に自動化されたアプローチが、OCR で抽出されたテキストの人間による追加の検証に依存する対応するベースラインよりも優れていることを示します。
Internet memes are characterised by the interspersing of text amongst visual elements. State-of-the-art multimodal meme classifiers do not account for the relative positions of these elements across the two modalities, despite the latent meaning associated with where text and visual elements are placed. Against two meme sentiment classification datasets, we systematically show performance gains from incorporating the spatial position of visual objects, faces, and text clusters extracted from memes. In addition, we also present facial embedding as an impactful enhancement to image representation in a multimodal meme classifier. Finally, we show that incorporating this spatial information allows our fully automated approaches to outperform their corresponding baselines that rely on additional human validation of OCR-extracted text.
updated: Fri Mar 03 2023 08:44:20 GMT+0000 (UTC)
published: Fri Mar 03 2023 08:44:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト