arXiv reaDer
3D CNNの時間的確率的ソフトマックス:顔の表情認識への応用
Temporal Stochastic Softmax for 3D CNNs: An Application in Facial Expression Recognition
ビデオ内の顔の表情を正確に時空間的に認識するための深層学習モデルのトレーニングには、かなりの計算リソースが必要です。実用上の理由から、3D畳み込みニューラルネットワーク(3D CNN)は通常、ビデオからランダムに抽出された比較的短いクリップでトレーニングされます。ただし、このような均一なサンプリングは、各時間クリップに等しい重要度が割り当てられるため、一般的に最適ではありません。この論文では、3DCNNの効率的なビデオベースのトレーニングのための戦略を提示します。これは、softmax時間プーリングと加重サンプリングメカニズムに依存して、最も関連性の高いトレーニングクリップを選択します。提案されたソフトマックス戦略には、いくつかの利点があります。効率的なクリップサンプリングによる計算の複雑さの軽減、および時間的重み付けがトレーニングと推論の両方でより関連性の高いクリップに焦点を合わせるため、精度が向上します。いくつかの表情認識ベンチマークで提案された方法で得られた実験結果は、トレーニングビデオでより有益なクリップに焦点を当てることの利点を示しています。特に、私たちのアプローチは、ビデオの不正確なトリミングと粗い注釈の影響、および時間全体にわたる視覚情報の不均一な分布を減らすことによって、パフォーマンスと計算コストを改善します。
Training deep learning models for accurate spatiotemporal recognition of facial expressions in videos requires significant computational resources. For practical reasons, 3D Convolutional Neural Networks (3D CNNs) are usually trained with relatively short clips randomly extracted from videos. However, such uniform sampling is generally sub-optimal because equal importance is assigned to each temporal clip. In this paper, we present a strategy for efficient video-based training of 3D CNNs. It relies on softmax temporal pooling and a weighted sampling mechanism to select the most relevant training clips. The proposed softmax strategy provides several advantages: a reduced computational complexity due to efficient clip sampling, and an improved accuracy since temporal weighting focuses on more relevant clips during both training and inference. Experimental results obtained with the proposed method on several facial expression recognition benchmarks show the benefits of focusing on more informative clips in training videos. In particular, our approach improves performance and computational cost by reducing the impact of inaccurate trimming and coarse annotation of videos, and heterogeneous distribution of visual information across time.
updated: Tue Nov 10 2020 16:40:00 GMT+0000 (UTC)
published: Tue Nov 10 2020 16:40:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト