このペーパーでは、AAAI 2022でのマルチモーダルファクト検証(Factify)チャレンジの参加者システムについて説明します。テキストベースの検証手法と事前にトレーニングされた大規模なマルチモーダルモデルのクロスビジョンと言語の最近の進歩にもかかわらず、適用する作業は非常に限られています。ファクトチェックプロセスを自動化するためのマルチモーダル手法。特に、ソーシャルメディア上の画像やビデオに関するクレームやフェイクニュースの蔓延を考慮します。私たちの仕事では、チャレンジはマルチモーダル含意タスクとして扱われ、マルチクラス分類として組み立てられます。アンサンブルモデル(2つのユニモーダルモデルを組み合わせたもの)とマルチモーダルアテンションネットワーク(クレームと証拠文書からの画像とテキストのペア間の相互作用をモデル化したもの)を含む2つのベースラインアプローチが提案され、検討されています。この作業では、さまざまなSoTAの事前トレーニング済みトランスフォーマーとビジョンモデルを調査およびベンチマークするいくつかの実験を実施します。私たちの最高のモデルは、検証セットとテストセットの両方で0.77の加重平均Fメジャーを取得するリーダーボードで最初にランク付けされています。データセットの探索的分析もFactifyデータセットで実行され、仮説の動機となる顕著なパターンと問題(たとえば、単語の重複、視覚的含意相関、ソースバイアス)を明らかにします。最後に、将来の研究のためのタスクとマルチモーダルデータセットの課題に焦点を当てます。
This paper describes our participant system for the multi-modal fact verification (Factify) challenge at AAAI 2022. Despite the recent advance in text based verification techniques and large pre-trained multimodal models cross vision and language, very limited work has been done in applying multimodal techniques to automate fact checking process, particularly considering the increasing prevalence of claims and fake news about images and videos on social media. In our work, the challenge is treated as multimodal entailment task and framed as multi-class classification. Two baseline approaches are proposed and explored including an ensemble model (combining two uni-modal models) and a multi-modal attention network (modeling the interaction between image and text pair from claim and evidence document). We conduct several experiments investigating and benchmarking different SoTA pre-trained transformers and vision models in this work. Our best model is ranked first in leaderboard which obtains a weighted average F-measure of 0.77 on both validation and test set. Exploratory analysis of dataset is also carried out on the Factify data set and uncovers salient patterns and issues (e.g., word overlapping, visual entailment correlation, source bias) that motivates our hypothesis. Finally, we highlight challenges of the task and multimodal dataset for future research.