arXiv reaDer
HMS:効率的なビデオ認識のための階層的モダリティ選択
HMS: Hierarchical Modality Selection for Efficient Video Recognition
ビデオは本質的にマルチモーダルです。従来のビデオ認識パイプラインは通常、パフォーマンスを向上させるためにマルチモーダル機能を融合しています。ただし、これは計算コストが高いだけでなく、さまざまなビデオが予測のためにさまざまなモダリティに依存しているという事実も無視しています。このホワイトペーパーでは、効率的なビデオ認識のためのシンプルでありながら効率的なマルチモーダル学習フレームワークである階層モダリティ選択(HMS)を紹介します。 HMSは、デフォルトで低コストのモダリティ、つまりオーディオの手がかりで動作し、入力ごとに、外観や動きの手がかりなど、計算コストの高いモダリティを使用するかどうかをオンザフライで動的に決定します。これは、階層的に編成された3つのLSTMのコラボレーションによって実現されます。特に、高コストのモダリティで動作するLSTMには、対応するモダリティをアクティブ化するかどうかを適応的に決定するために、低レベルの機能と履歴情報を入力として受け取るゲーティングモジュールが含まれています。それ以外の場合は、単に履歴情報を再利用します。 2つの大規模なビデオベンチマークであるFCVIDとActivityNetで広範な実験を実施し、その結果は、提案されたアプローチが、はるかに少ない計算で分類パフォーマンスを向上させるためにマルチモーダル情報を効果的に探索できることを示しています。
Videos are multimodal in nature. Conventional video recognition pipelines typically fuse multimodal features for improved performance. However, this is not only computationally expensive but also neglects the fact that different videos rely on different modalities for predictions. This paper introduces Hierarchical Modality Selection (HMS), a simple yet efficient multimodal learning framework for efficient video recognition. HMS operates on a low-cost modality, i.e., audio clues, by default, and dynamically decides on-the-fly whether to use computationally-expensive modalities, including appearance and motion clues, on a per-input basis. This is achieved by the collaboration of three LSTMs that are organized in a hierarchical manner. In particular, LSTMs that operate on high-cost modalities contain a gating module, which takes as inputs lower-level features and historical information to adaptively determine whether to activate its corresponding modality; otherwise it simply reuses historical information. We conduct extensive experiments on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate the proposed approach can effectively explore multimodal information for improved classification performance while requiring much less computation.
updated: Wed Apr 21 2021 03:00:57 GMT+0000 (UTC)
published: Tue Apr 20 2021 04:47:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト