Exploring Temporal Differences in 3D Convolutional Neural Networks
  従来の3Dコンボリューションは、計算コストが高く、メモリを大量に消費します。また、多数のパラメーターがあるため、しばしばオーバーフィットする傾向があります。一方、2D CNNは3D CNNよりも計算コストが低く、メモリ集約度が低く、画像分類やオブジェクト認識などのアプリケーションで顕著な結果を示しています。ただし、以前の研究では、時空間入力に適用した場合、3D CNNよりも劣ることが観察されています。本研究では、2Dコンボリューションを実行して空間情報を抽出し、時間差、すなわち異なる時間インスタンスでの空間情報の変化を利用して時間情報を抽出する畳み込みブロックを提案します。トレーニング可能なパラメーターを使用せずに追加します。提案された畳み込みブロックは、サイズがnxnの2D畳み込みカーネル、つまりn ^ 2と同じ数のパラメーターを持ち、nxnxn 3D畳み込みカーネルよりもn倍少ないパラメーターを持ちます。 3D畳み込みカーネルが提案された畳み込みブロックに置き換えられると、3D CNNのパフォーマンスが向上することを示します。 UCF101およびModelNetデータセットで提案されている畳み込みブロックを評価します。
Traditional 3D convolutions are computationally expensive, memory intensive, and due to large number of parameters, they often tend to overfit. On the other hand, 2D CNNs are less computationally expensive and less memory intensive than 3D CNNs and have shown remarkable results in applications like image classification and object recognition. However, in previous works, it has been observed that they are inferior to 3D CNNs when applied on a spatio-temporal input. In this work, we propose a convolutional block which extracts the spatial information by performing a 2D convolution and extracts the temporal information by exploiting temporal differences, i.e., the change in the spatial information at different time instances, using simple operations of shift, subtract and add without utilizing any trainable parameters. The proposed convolutional block has same number of parameters as of a 2D convolution kernel of size nxn, i.e. n^2, and has n times lesser parameters than an nxnxn 3D convolution kernel. We show that the 3D CNNs perform better when the 3D convolution kernels are replaced by the proposed convolutional blocks. We evaluate the proposed convolutional block on UCF101 and ModelNet datasets.
