この作業は、インターネットミームにおけるヘイトスピーチ検出の課題に対処し、視覚情報を使用してヘイトスピーチを自動的に検出することを試みます。ミームはピクセルベースのマルチメディアドキュメントであり、写真やイラストとフレーズが組み合わされており、それらが組み合わされると、通常は面白い意味を持ちます。ただし、憎悪ミームはソーシャルネットワークを通じて憎悪を広めるためにも使用されるため、その自動検出は有害な社会的影響を軽減するのに役立ちます。私たちの結果は、モデルがミームのいくつかを検出することを学ぶことができるが、タスクがこの単純なアーキテクチャで解決されるにはほど遠いことを示しています。以前の研究は言語的ヘイトスピーチに焦点を当てていましたが、私たちの実験は、視覚的モダリティがミームの言語的モダリティよりもヘイトスピーチ検出にとってはるかに有益である方法を示しています。私たちの実験では、5,020ミームのデータセットを構築して、視覚的表現と言語表現を対象に、多層パーセプトロンを独立してまたは融合しているかどうかを訓練および評価しました。ソースコード、モード、モデルはhttps://github.com/imatge-upc/hate-speech-detectionで入手できます。
This work addresses the challenge of hate speech detection in Internet memes, and attempts using visual information to automatically detect hate speech, unlike any previous work of our knowledge. Memes are pixel-based multimedia documents that contain photos or illustrations together with phrases which, when combined, usually adopt a funny meaning. However, hate memes are also used to spread hate through social networks, so their automatic detection would help reduce their harmful societal impact. Our results indicate that the model can learn to detect some of the memes, but that the task is far from being solved with this simple architecture. While previous work focuses on linguistic hate speech, our experiments indicate how the visual modality can be much more informative for hate speech detection than the linguistic one in memes. In our experiments, we built a dataset of 5,020 memes to train and evaluate a multi-layer perceptron over the visual and language representations, whether independently or fused. The source code and mode and models are available https://github.com/imatge-upc/hate-speech-detection .