arXiv reaDer
Pro-Cap: 憎しみに満ちたミームの検出に凍結された視覚言語モデルを活用する
Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection
憎しみに満ちたミームの検出は、視覚と言語の両方の理解、およびクロスモーダルなインタラクションを必要とする、困難なマルチモーダルなタスクです。最近の研究では、このタスクのために事前トレーニング済み視覚言語モデル (PVLM) を微調整することが試みられています。ただし、モデルのサイズが大きくなると、単に微調整するだけではなく、強力な PVLM をより効率的に活用することが重要になります。最近、研究者たちはミーム画像をテキストキャプションに変換し、言語モデルに予測を促す試みを行っています。このアプローチは良好なパフォーマンスを示していますが、情報を提供しない画像キャプションが発生するという問題があります。上記の 2 つの要素を考慮して、ゼロショットのビジュアル質問応答 (VQA) 方式で PVLM を活用する、プローブベースのキャプション アプローチを提案します。具体的には、ヘイトコンテンツ関連の質問をすることで凍結された PVLM を促し、その回答を画像のキャプション (Pro-Cap と呼びます) として使用します。これにより、キャプションにはヘイトコンテンツの検出に重要な情報が含まれます。 3 つのベンチマークにおける Pro-Cap を使用したモデルの良好なパフォーマンスは、提案された手法の有効性と一般化を検証します。
Hateful meme detection is a challenging multimodal task that requires comprehension of both vision and language, as well as cross-modal interactions. Recent studies have tried to fine-tune pre-trained vision-language models (PVLMs) for this task. However, with increasing model sizes, it becomes important to leverage powerful PVLMs more efficiently, rather than simply fine-tuning them. Recently, researchers have attempted to convert meme images into textual captions and prompt language models for predictions. This approach has shown good performance but suffers from non-informative image captions. Considering the two factors mentioned above, we propose a probing-based captioning approach to leverage PVLMs in a zero-shot visual question answering (VQA) manner. Specifically, we prompt a frozen PVLM by asking hateful content-related questions and use the answers as image captions (which we call Pro-Cap), so that the captions contain information critical for hateful content detection. The good performance of models with Pro-Cap on three benchmarks validates the effectiveness and generalization of the proposed method.
updated: Wed Aug 16 2023 01:38:49 GMT+0000 (UTC)
published: Wed Aug 16 2023 01:38:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト