最近、3次元(3D)畳み込みニューラルネットワーク(CNN)は、既存の2D CNNに3番目の時間次元を追加することにより、ビデオの時空間表現をキャプチャする主要な方法として登場しました。ただし、このような3D CNNは反因果的であり(つまり、過去と未来の両方のフレームからの情報を活用して特徴表現を生成し、オンライン設定での使用を防止します)、時間的推論の範囲を時間的畳み込みのサイズに制限しますカーネルであり、たとえばアクション検出のように、ビデオシーケンス間モデリングの一時的な解像度を保持していません。これらの重大な制限に対処するために、ビデオの因果関係/オンライン処理のための新しい3D CNNアーキテクチャを紹介します。すなわち、我々は、各ネットワークレベルでフレーム全体の時間的コンテキストをキャプチャするために再発に依存する、新しいリカレント畳み込みネットワーク(RCN)を提案します。私たちのネットワークは、3D畳み込みを(1)2D空間畳み込み成分に分解し、(2)追加の隠れ状態$ 1 \ times 1 $畳み込みを時間にわたって適用します。常に$ t $の非表示状態は、$ t-1 $の非表示状態と空間たたみ込みコンポーネントの現在の出力に依存すると想定されます。その結果、提案されたネットワークは、(i)因果的出力を生成し、(ii)柔軟な時間的推論を提供し、(iii)時間的解像度を保持します。大規模な大規模なキネティクスとMultiThumosデータセットに関する実験では、因果関係があり、使用するパラメーターが少ない一方で、提案された方法が反因果3D CNNと同等に機能することを示しています。
Recently, three dimensional (3D) convolutional neural networks (CNNs) have emerged as dominant methods to capture spatiotemporal representations in videos, by adding to pre-existing 2D CNNs a third, temporal dimension. Such 3D CNNs, however, are anti-causal (i.e., they exploit information from both the past and the future frames to produce feature representations, thus preventing their use in online settings), constrain the temporal reasoning horizon to the size of the temporal convolution kernel, and are not temporal resolution-preserving for video sequence-to-sequence modelling, as, for instance, in action detection. To address these serious limitations, here we present a new 3D CNN architecture for the causal/online processing of videos. Namely, we propose a novel Recurrent Convolutional Network (RCN), which relies on recurrence to capture the temporal context across frames at each network level. Our network decomposes 3D convolutions into (1) a 2D spatial convolution component, and (2) an additional hidden state $1\times 1$ convolution, applied across time. The hidden state at any time $t$ is assumed to depend on the hidden state at $t-1$ and on the current output of the spatial convolution component. As a result, the proposed network: (i) produces causal outputs, (ii) provides flexible temporal reasoning, (iii) preserves temporal resolution. Our experiments on the large-scale large Kinetics and MultiThumos datasets show that the proposed method performs comparably to anti-causal 3D CNNs, while being causal and using fewer parameters.