Convolutional Neural Networks や Transformers などの最先端の画像およびテキスト分類モデルは、人間の精度に近いかそれを超える精度で、それぞれの単峰性推論を十分に分類することができました。ただし、悪意のあるミームなどのテキストが埋め込まれた画像は、無害な交絡因子などの難しい例がデータセットに組み込まれている場合、単峰推論を使用して分類するのは困難です。私たちは、Hateful Meme Challenge の優勝チームのフレームワークに基づいて、Facebook AI からの Hateful Memes データセットに加えて、より多くのラベル付きミームを生成しようとしています。ラベル付けされたミームの数を増やすために、Memotion Dataset 7K から収集された、新しく導入されたラベル付けされていないミームの疑似ラベルを使用して、半教師あり学習を調査します。ラベル付けされていないデータに対する半教師付き学習タスクには、人間の介入とフィルタリングが必要であり、限られた量の新しいデータを追加しても、追加の分類パフォーマンスは得られないことがわかりました。
State-of-the-art image and text classification models, such as Convolutional Neural Networks and Transformers, have long been able to classify their respective unimodal reasoning satisfactorily with accuracy close to or exceeding human accuracy. However, images embedded with text, such as hateful memes, are hard to classify using unimodal reasoning when difficult examples, such as benign confounders, are incorporated into the data set. We attempt to generate more labeled memes in addition to the Hateful Memes data set from Facebook AI, based on the framework of a winning team from the Hateful Meme Challenge. To increase the number of labeled memes, we explore semi-supervised learning using pseudo-labels for newly introduced, unlabeled memes gathered from the Memotion Dataset 7K. We find that the semi-supervised learning task on unlabeled data required human intervention and filtering and that adding a limited amount of new data yields no extra classification performance.