arXiv reaDer
MILA:効率的なフレーム間注意によるビデオからのマルチタスク学習
MILA: Multi-Task Learning from Videos via Efficient Inter-Frame Attention
マルチタスク学習のこれまでの研究は、主に単一の画像の予測に焦点を合わせていました。この作業では、効率的なフレーム間ローカルアテンション(MILA)を介してビデオからマルチタスク学習するための新しいアプローチを提示します。私たちのアプローチには、フレーム全体でタスク固有の注意を学習できる新しいフレーム間注意モジュールが含まれています。アテンションモジュールを「低速-高速」アーキテクチャに組み込みます。このアーキテクチャでは、低速のネットワークはまばらにサンプリングされたキーフレームで実行され、軽量の浅いネットワークは非キーフレームで高フレームレートで実行されます。また、低速および高速のネットワークが同様の機能を学習するように促すための効果的な敵対的学習戦略を提案します。私たちのアプローチは、高品質の予測を維持しながら、低遅延のマルチタスク学習を保証します。実験では、浮動小数点演算(FLOP)の数を最大70%削減しながら、2つのマルチタスク学習ベンチマークで最先端と比較して競争力のある精度を示しています。さらに、注意ベースの機能伝播方法(ILA)は、タスクの精度の点で以前の作業よりも優れていると同時に、FLOPを最大90%削減します。
Prior work in multi-task learning has mainly focused on predictions on a single image. In this work, we present a new approach for multi-task learning from videos via efficient inter-frame local attention (MILA). Our approach contains a novel inter-frame attention module which allows learning of task-specific attention across frames. We embed the attention module in a ``slow-fast'' architecture, where the slower network runs on sparsely sampled keyframes and the light-weight shallow network runs on non-keyframes at a high frame rate. We also propose an effective adversarial learning strategy to encourage the slow and fast network to learn similar features. Our approach ensures low-latency multi-task learning while maintaining high quality predictions. Experiments show competitive accuracy compared to state-of-the-art on two multi-task learning benchmarks while reducing the number of floating point operations (FLOPs) by up to 70%. In addition, our attention based feature propagation method (ILA) outperforms prior work in terms of task accuracy while also reducing up to 90% of FLOPs.
updated: Sun Oct 10 2021 23:18:15 GMT+0000 (UTC)
published: Tue Feb 18 2020 04:25:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト