ソーシャル メディア上のコンテンツは本質的にマルチモーダルなものが増えているため、マルチモーダル コンテンツ モデレーション (CM) のニーズが急速に高まっています。既存の単峰性 CM システムは、様式を横断する有害なコンテンツ (ミームやビデオなど) を捕捉できない可能性があり、深刻な結果につながる可能性があります。本稿では、マルチモーダルおよびユニモーダル CM タスクを対象とした、新しい CM モデルである非対称混合モーダル モデレーション (AM3) を紹介します。具体的には、視覚と言語の間の意味論の非対称性に対処するために、AM3 には、両方のモダリティの共通知識を融合するだけでなく、各モダリティの固有の情報を活用するように設計された新しい非対称融合アーキテクチャがあります。マルチモダリティとユニモダリティで伝達される情報の本質的な違い(モダリティの非対称性)を見落としながら、2つのモダリティを融合することに焦点を当てたこれまでの研究とは異なり、マルチモダリティでのみ現れるユニークな知識を学習するための新しいクロスモダリティ対比損失を提案します。一部の有害な意図は、両方のモダリティが交差する場合にのみ伝達される可能性があるため、これは非常に重要です。広範な実験により、AM3 はマルチモーダル CM ベンチマークとユニモーダル CM ベンチマークの両方で既存のすべての最先端の手法よりも優れたパフォーマンスを発揮することを示しています。
There is a rapidly growing need for multimodal content moderation (CM) as more and more content on social media is multimodal in nature. Existing unimodal CM systems may fail to catch harmful content that crosses modalities (e.g., memes or videos), which may lead to severe consequences. In this paper, we present a novel CM model, Asymmetric Mixed-Modal Moderation (AM3), to target multimodal and unimodal CM tasks. Specifically, to address the asymmetry in semantics between vision and language, AM3 has a novel asymmetric fusion architecture that is designed to not only fuse the common knowledge in both modalities but also to exploit the unique information in each modality. Unlike previous works that focus on fusing the two modalities while overlooking the intrinsic difference between the information conveyed in multimodality and in unimodality (asymmetry in modalities), we propose a novel cross-modality contrastive loss to learn the unique knowledge that only appears in multimodality. This is critical as some harmful intent may only be conveyed through the intersection of both modalities. With extensive experiments, we show that AM3 outperforms all existing state-of-the-art methods on both multimodal and unimodal CM benchmarks.