時空間(すなわち3D)または高次の多次元畳み込みでディープニューラルネットワークをトレーニングすることは、数十のレイヤーにわたる数百万の未知のパラメーターにより、計算上困難です。これを軽減するための1つのアプローチは、ネットワークを圧縮してパラメーターの数を減らすために、低ランクのテンソル分解をたたみ込みカーネルに適用することです。または、MobileNetなどの新しいたたみ込みブロックを直接設計して効率を上げることもできます。この論文では、高次の効率的な多次元(分離可能)たたみ込みのためのテンソル因数分解フレームワークを提案することにより、これら2つのアプローチを統合します。興味深いことに、提案されたフレームワークは、新しい高次変換を可能にし、特定のドメイン(例:2D画像またはN次元データ一般)でネットワークをトレーニングし、変換を使用してビデオなどの高次データ(または(N + K)次元データ一般)、学習された空間情報を保持しながらインスタンスの時間ダイナミクスをキャプチャします。提案された方法論、造語CP高次畳み込み(HO-CPConv)を時空間の顔の感情分析に適用します。ほとんどの既存の顔面影響モデルは静的な画像に焦点を当て、すべての時間的情報を破棄します。これは、前述の3D畳み込みネットのトレーニングの負担と、エキスパートが注釈を付けた大量のビデオデータがないためです。私たちは提案されたフレームワークで両方の問題に対処します。最初のトレーニングは、変換を使用して時間領域に一般化する前に、まず静的画像で行われます。 AffectNet、SEWA、およびAFEW-VAの3つの挑戦的な大規模影響評価データセットで優れたパフォーマンスを示します。
Training deep neural networks with spatio-temporal (i.e., 3D) or multidimensional convolutions of higher-order is computationally challenging due to millions of unknown parameters across dozens of layers. To alleviate this, one approach is to apply low-rank tensor decompositions to convolution kernels in order to compress the network and reduce its number of parameters. Alternatively, new convolutional blocks, such as MobileNet, can be directly designed for efficiency. In this paper, we unify these two approaches by proposing a tensor factorization framework for efficient multidimensional (separable) convolutions of higher-order. Interestingly, the proposed framework enables a novel higher-order transduction, allowing to train a network on a given domain (e.g., 2D images or N-dimensional data in general) and using transduction to generalize to higher-order data such as videos (or (N+K)-dimensional data in general), capturing for instance temporal dynamics while preserving the learnt spatial information. We apply the proposed methodology, coined CP-Higher-Order Convolution (HO-CPConv), to spatio-temporal facial emotion analysis. Most existing facial affect models focus on static imagery and discard all temporal information. This is due to the above-mentioned burden of training 3D convolutional nets and the lack of large bodies of video data annotated by experts. We address both issues with our proposed framework. Initial training is first done on static imagery before using transduction to generalize to the temporal domain. We demonstrate superior performance on three challenging large scale affect estimation datasets, AffectNet, SEWA, and AFEW-VA.