arXiv reaDer
長期短期記憶と畳み込みニューラルネットワークを使用したマルチモーダルビデオベースの見かけのパーソナリティ認識
Multimodal Video-based Apparent Personality Recognition Using Long Short-Term Memory and Convolutional Neural Networks
 パーソナリティコンピューティングとアフェクティブコンピューティングは、パーソナリティ特性の認識が不可欠であるため、最近多くの研究分野で関心と関心が高まっています。ビデオから人々のビッグファイブ人格特性を認識する新しいアプローチを提案します。人格と感情は、話し方、顔の表情、身体の動き、社会的文脈の言語的要因に影響を与え、環境要素の影響を受けます。顔、環境、音声、文字起こしなどのさまざまなモダリティに基づいて、見かけの性格を認識するマルチモーダルシステムを開発します。特性を独立して認識することを学習するモダリティ固有のニューラルネットワークを使用し、これらのネットワークの機能レベルの融合により見かけの人格の最終的な予測を取得します。 ResNetやVGGishネットワークなどの事前トレーニングされたディープコンボリューショナルニューラルネットワークを使用して、高レベルの特徴を抽出し、Long Short-Term Memoryネットワークを使用して時間情報を統合します。 2段階のトレーニングプロセスを使用して、モダリティ固有のサブネットワークで構成される大規模モデルをトレーニングします。最初にサブネットワークを個別にトレーニングしてから、これらのトレーニング済みネットワークを使用してモデル全体を微調整します。 ChaLearn First Impressions V2チャレンジデータセットを使用して提案方法を評価します。私たちのアプローチは、最高水準の「平均精度」スコアを取得し、最新技術と比較して、5つの性格特性を平均しています。
Personality computing and affective computing, where the recognition of personality traits is essential, have gained increasing interest and attention in many research areas recently. We propose a novel approach to recognize the Big Five personality traits of people from videos. Personality and emotion affect the speaking style, facial expressions, body movements, and linguistic factors in social contexts, and they are affected by environmental elements. We develop a multimodal system to recognize apparent personality based on various modalities such as the face, environment, audio, and transcription features. We use modality-specific neural networks that learn to recognize the traits independently and we obtain a final prediction of apparent personality with a feature-level fusion of these networks. We employ pre-trained deep convolutional neural networks such as ResNet and VGGish networks to extract high-level features and Long Short-Term Memory networks to integrate temporal information. We train the large model consisting of modality-specific subnetworks using a two-stage training process. We first train the subnetworks separately and then fine-tune the overall model using these trained networks. We evaluate the proposed method using ChaLearn First Impressions V2 challenge dataset. Our approach obtains the best overall "mean accuracy" score, averaged over five personality traits, compared to the state-of-the-art.
updated: Fri Nov 01 2019 13:52:49 GMT+0000 (UTC)
published: Fri Nov 01 2019 13:52:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト