ビデオは本質的にマルチモーダルです。従来のビデオ認識パイプラインは通常、パフォーマンスを向上させるためにマルチモーダル機能を融合しています。ただし、これは計算コストが高いだけでなく、さまざまなビデオが予測のためにさまざまなモダリティに依存しているという事実も無視しています。このホワイトペーパーでは、効率的なビデオ認識のためのシンプルでありながら効率的なマルチモーダル学習フレームワークである階層モダリティ選択(HMS)を紹介します。 HMSは、デフォルトで低コストのモダリティ、つまりオーディオの手がかりで動作し、入力ごとに、外観や動きの手がかりなど、計算コストの高いモダリティを使用するかどうかをオンザフライで動的に決定します。これは、階層的に編成された3つのLSTMのコラボレーションによって実現されます。特に、高コストのモダリティで動作するLSTMには、対応するモダリティをアクティブ化するかどうかを適応的に決定するために、低レベルの機能と履歴情報を入力として受け取るゲーティングモジュールが含まれています。それ以外の場合は、単に履歴情報を再利用します。 2つの大規模なビデオベンチマークであるFCVIDとActivityNetで広範な実験を実施し、その結果は、提案されたアプローチが、はるかに少ない計算で分類パフォーマンスを向上させるためにマルチモーダル情報を効果的に探索できることを示しています。
Videos are multimodal in nature. Conventional video recognition pipelines typically fuse multimodal features for improved performance. However, this is not only computationally expensive but also neglects the fact that different videos rely on different modalities for predictions. This paper introduces Hierarchical Modality Selection (HMS), a simple yet efficient multimodal learning framework for efficient video recognition. HMS operates on a low-cost modality, i.e., audio clues, by default, and dynamically decides on-the-fly whether to use computationally-expensive modalities, including appearance and motion clues, on a per-input basis. This is achieved by the collaboration of three LSTMs that are organized in a hierarchical manner. In particular, LSTMs that operate on high-cost modalities contain a gating module, which takes as inputs lower-level features and historical information to adaptively determine whether to activate its corresponding modality; otherwise it simply reuses historical information. We conduct extensive experiments on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate the proposed approach can effectively explore multimodal information for improved classification performance while requiring much less computation.