arXiv reaDer
Exploring Hate Speech Detection in Multimodal Publications
  この作業では、テキストと画像で構成されるマルチモーダル出版物でのヘイトスピーチ検出の問題を対象としています。 Twitterの大規模なデータセットMMHS150Kを収集して注釈を付け、ヘイトスピーチ検出のためにテキスト情報と視覚情報を共同で分析し、それらをユニモーダル検出と比較するさまざまなモデルを提案します。定量的および定性的な結果を提供し、提案されたタスクの課題を分析します。画像はヘイトスピーチ検出タスクには有用ですが、現在のマルチモーダルモデルはテキストのみを分析するモデルよりも優れているとは言えません。その理由を議論し、さらなる研究のためにフィールドとデータセットを開きます。
In this work we target the problem of hate speech detection in multimodal publications formed by a text and an image. We gather and annotate a large scale dataset from Twitter, MMHS150K, and propose different models that jointly analyze textual and visual information for hate speech detection, comparing them with unimodal detection. We provide quantitative and qualitative results and analyze the challenges of the proposed task. We find that, even though images are useful for the hate speech detection task, current multimodal models cannot outperform models analyzing only text. We discuss why and open the field and the dataset for further research.
updated: Wed Oct 09 2019 06:53:39 GMT+0000 (UTC)
published: Wed Oct 09 2019 06:53:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト