arXiv reaDer
ビデオでのマルチモーダル詐欺検出のための新しい投票スキームを使用した堅牢な感情状態ベースの機能の構築
Constructing Robust Emotional State-based Feature with a Novel Voting Scheme for Multi-modal Deception Detection in Videos
欺瞞検出は、その潜在的なアプリケーションのためにホットな研究トピックである重要なタスクです。これは、国家安全保障 (空港のセキュリティ、法学、法執行機関など) から実際のアプリケーション (ビジネスやコンピューター ビジョンなど) まで、多くの分野で適用できます。ただし、いくつかの重大な問題がまだ存在しており、さらに調査する価値があります。欺瞞検出タスクにおける重要な課題の 1 つは、データ不足の問題です。これまで、人間の欺瞞検出用のマルチモーダル ベンチマーク オープン データセットが 1 つだけリリースされました。これには、欺瞞検出用の 121 のビデオ クリップが含まれています (つまり、欺瞞クラス用に 61 個、真実クラス用に 60 個)。このような量のデータでは、ディープ ニューラル ネットワーク ベースの手法を推進するのは困難です。したがって、これらの既存のモデルは、多くの場合、オーバーフィッティングの問題と低い一般化能力に悩まされています。さらに、グラウンド トゥルース データには、多くの要因で使用できないフレームが含まれています。しかし、ほとんどの文献はこれらの問題に注意を払っていませんでした。したがって、この論文では、最初に前述の問題に対処するための一連のデータ前処理方法を設計します。次に、マルチモーダル詐欺検出フレームワークを提案して、新しい感情状態ベースの機能を構築し、オープン ツールキット openSMILE を使用して音声モダリティから機能を抽出します。また、視覚および聴覚モダリティから得られた感情状態情報を組み合わせる投票スキームも設計します。最後に、独自に設計したアルゴリズムを使用して、新しい感情状態変換機能を決定できます。実験では、提案された方法と最先端のマルチモーダル詐欺検出方法との重要な分析と比較を行います。実験結果は、マルチモーダル欺瞞検出の全体的なパフォーマンスで、精度が 87.77% から 92.78% に、ROC-AUC が 0.9221 から 0.9265 に大幅に改善されたことを示しています。
Deception detection is an important task that has been a hot research topic due to its potential applications. It can be applied in many areas, from national security (e.g., airport security, jurisprudence, and law enforcement) to real-life applications (e.g., business and computer vision). However, some critical problems still exist and are worth more investigation. One of the significant challenges in the deception detection tasks is the data scarcity problem. Until now, only one multi-modal benchmark open dataset for human deception detection has been released, which contains 121 video clips for deception detection (i.e., 61 for deceptive class and 60 for truthful class). Such an amount of data is hard to drive deep neural network-based methods. Hence, those existing models often suffer from overfitting problems and low generalization ability. Moreover, the ground truth data contains some unusable frames for many factors. However, most of the literature did not pay attention to these problems. Therefore, in this paper, we design a series of data preprocessing methods to deal with the aforementioned problem first. Then, we propose a multi-modal deception detection framework to construct our novel emotional state-based feature and use the open toolkit openSMILE to extract the features from the audio modality. We also design a voting scheme to combine the emotional states information obtained from visual and audio modalities. Finally, we can determine the novel emotion state transformation feature with our self-designed algorithms. In the experiment, we conduct the critical analysis and comparison of the proposed methods with the state-of-the-art multi-modal deception detection methods. The experimental results show that the overall performance of multi-modal deception detection has a significant improvement in the accuracy from 87.77% to 92.78% and the ROC-AUC from 0.9221 to 0.9265.
updated: Mon Aug 01 2022 06:24:49 GMT+0000 (UTC)
published: Fri Apr 16 2021 21:20:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト