時空間ダイナミクスのキャプチャは、ビデオ認識の重要なトピックです。このホワイトペーパーでは、RGB入力ビデオ空間から時空間ダイナミクスをキャプチャするためのビルディングブロックの一般的なファミリとして学習可能な高次操作を示します。高階関数と同様に、高階演算の重み自体は、学習可能なパラメーターを使用してデータから導出されます。残差学習やネットワークインネットワークなどの古典的なアーキテクチャは、重みがデータから直接学習される一次操作です。高次の操作により、モーションなどの状況依存パターンを簡単にキャプチャできます。自己注意モデルも高次の操作ですが、注意の重みは主にアフィン操作または内積から計算されます。学習可能な高階操作は、より一般的で柔軟になります。実験的に、ビデオ認識のタスクで、高次モデルが、Something-Something(V1およびV2)、KineticsおよびCharadesデータセットに関する既存の最先端の方法と同等以上の結果を達成できることを示します。 。
Capturing spatiotemporal dynamics is an essential topic in video recognition. In this paper, we present learnable higher-order operations as a generic family of building blocks for capturing spatiotemporal dynamics from RGB input video space. Similar to higher-order functions, the weights of higher-order operations are themselves derived from the data with learnable parameters. Classical architectures such as residual learning and network-in-network are first-order operations where weights are directly learned from the data. Higher-order operations make it easier to capture context-sensitive patterns, such as motion. Self-attention models are also higher-order operations, but the attention weights are mostly computed from an affine operation or dot product. Learnable higher-order operations can be more generic and flexible. Experimentally, we show that on the task of video recognition, our higher-order models can achieve results on par with or better than the existing state-of-the-art methods on Something-Something (V1 and V2), Kinetics and Charades datasets.