arXiv reaDer
誘発された表現推定のための位置符号化を伴う時間畳み込みネットワーク
Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation
このペーパーでは、ビデオから誘発された表情を予測することを目的とした、ビデオからの誘発された表情(EEV)チャレンジのアプローチを紹介します。コンピュータービジョンおよびオーディオ信号の大規模データセットで事前にトレーニングされたモデルを利用して、ビデオのタイムスタンプの詳細な表現を抽出します。 RNNのようなアーキテクチャではなく、時間畳み込みネットワークを使用して、メモリ消費と並列処理に利点があるため、時間的関係を調査します。さらに、一部のタイムスタンプの欠落している注釈に対処するために、位置エンコードを使用して、トレーニング中にこれらのタイムスタンプを破棄するときに入力データの連続性を確保します。ピアソン相関係数0.05477で、EEVチャレンジで最先端の結果を達成しました。これは、EEV2021チャレンジで最初にランク付けされたパフォーマンスです。
This paper presents an approach for Evoked Expressions from Videos (EEV) challenge, which aims to predict evoked facial expressions from video. We take advantage of pre-trained models on large-scale datasets in computer vision and audio signals to extract the deep representation of timestamps in the video. A temporal convolution network, rather than an RNN like architecture, is used to explore temporal relationships due to its advantage in memory consumption and parallelism. Furthermore, to address the missing annotations of some timestamps, positional encoding is employed to ensure continuity of input data when discarding these timestamps during training. We achieved state-of-the-art results on the EEV challenge with a Pearson correlation coefficient of 0.05477, the first ranked performance in the EEV 2021 challenge.
updated: Wed Jun 16 2021 07:49:36 GMT+0000 (UTC)
published: Wed Jun 16 2021 07:49:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト