arXiv reaDer
Zeus: 強化学習を使用してビデオ内のアクションを効率的にローカライズする
Zeus: Efficiently Localizing Actions in Videos using Reinforcement Learning
ビデオ内のアクションの検出とローカリゼーションは、実際には重要な問題です。最先端のビデオ分析システムは、このようなアクション クエリに効率的かつ効果的に答えることができません。これは、アクションがオブジェクト間の複雑な相互作用を伴うことが多く、一連のフレームにまたがっているからです。それらを検出してローカライズするには、計算コストの高いディープ ニューラル ネットワークが必要です。クエリに効果的に答えるには、フレームのシーケンス全体を考慮することも重要です。このホワイト ペーパーでは、アクション クエリに応答するように調整されたビデオ分析システムである ZEUS を紹介します。深層強化学習を使用してこれらのクエリに効率的に回答するための新しい手法を紹介します。 ZEUS は、入力ビデオ セグメントを適応的に変更することを学習する強化学習エージェントをトレーニングします。このエージェントは、後でアクション分類ネットワークに送信されます。エージェントは、サンプリング レート、セグメントの長さ、解像度の 3 つの次元に沿って入力セグメントを変更します。ユーザーが指定した精度目標を満たすために、ZEUS のクエリ オプティマイザーは、精度を意識した集計報酬関数に基づいてエージェントをトレーニングします。 3 つの多様なビデオ データセットでの評価では、ZEUS が最先端のフレームおよびウィンドウ ベースのフィルタリング技術よりも、それぞれ最大 22.1x および 4.7x 優れていることが示されています。また、すべてのクエリで、ユーザーが指定した精度目標を一貫して満たしています。
Detection and localization of actions in videos is an important problem in practice. State-of-the-art video analytics systems are unable to efficiently and effectively answer such action queries because actions often involve a complex interaction between objects and are spread across a sequence of frames; detecting and localizing them requires computationally expensive deep neural networks. It is also important to consider the entire sequence of frames to answer the query effectively. In this paper, we present ZEUS, a video analytics system tailored for answering action queries. We present a novel technique for efficiently answering these queries using deep reinforcement learning. ZEUS trains a reinforcement learning agent that learns to adaptively modify the input video segments that are subsequently sent to an action classification network. The agent alters the input segments along three dimensions - sampling rate, segment length, and resolution. To meet the user-specified accuracy target, ZEUS's query optimizer trains the agent based on an accuracy-aware, aggregate reward function. Evaluation on three diverse video datasets shows that ZEUS outperforms state-of-the-art frame- and window-based filtering techniques by up to 22.1x and 4.7x, respectively. It also consistently meets the user-specified accuracy target across all queries.
updated: Tue Sep 27 2022 19:07:41 GMT+0000 (UTC)
published: Tue Apr 06 2021 16:38:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト