arXiv reaDer
マルチタスクビデオ分析パイプラインのための強化学習ベースのエネルギー効率の高いフレームワーク
A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline
ディープラーニングベースのビデオ処理は、近年、変革をもたらす結果をもたらしました。ただし、ビデオ分析パイプラインは、データレートが高く、複雑な推論アルゴリズムに依存しているため、エネルギーを大量に消費します。これにより、エネルギーに制約のあるアプリケーションでの採用が制限されます。ビデオデータストリームの高度で可変的な空間冗長性と時間的ダイナミクスの観察に動機付けられて、マルチタスクビデオ分析パイプラインのエネルギー使用を最小限に抑えるための適応解像度最適化フレームワークを設計および評価します。個々のタスクの入力データ解像度をヒューリスティックに調整する代わりに、私たちのフレームワークは、深層強化学習を利用して、ビデオ分析パイプライン全体の入力解像度と計算を動的に管理します。さまざまな解像度が高次元のビデオ分析機能の品質、つまりビデオ分析結果の精度に与える影響を監視することにより、提案されたエンドツーエンドの最適化フレームワークは、入力ビデオの解像度を動的に制御するための最良の非ミオピックポリシーを学習しますエネルギー効率をグローバルに最適化するためのストリーム。強化学習によって管理され、オプティカルフローがフレームワークに組み込まれ、精度を維持しながら、再計算につながる不要な時空間冗長性を最小限に抑えます。提案されたフレームワークは、最も困難なマシンビジョンタスクの1つであるビデオインスタンスセグメンテーションに適用され、提案されたフレームワークのエネルギー消費効率は、YouTube-VISデータセットで同様の精度のすべてのベースラインメソッドを大幅に上回っています。
Deep-learning-based video processing has yielded transformative results in recent years. However, the video analytics pipeline is energy-intensive due to high data rates and reliance on complex inference algorithms, which limits its adoption in energy-constrained applications. Motivated by the observation of high and variable spatial redundancy and temporal dynamics in video data streams, we design and evaluate an adaptive-resolution optimization framework to minimize the energy use of multi-task video analytics pipelines. Instead of heuristically tuning the input data resolution of individual tasks, our framework utilizes deep reinforcement learning to dynamically govern the input resolution and computation of the entire video analytics pipeline. By monitoring the impact of varying resolution on the quality of high-dimensional video analytics features, hence the accuracy of video analytics results, the proposed end-to-end optimization framework learns the best non-myopic policy for dynamically controlling the resolution of input video streams to achieve globally optimize energy efficiency. Governed by reinforcement learning, optical flow is incorporated into the framework to minimize unnecessary spatio-temporal redundancy that leads to re-computation, while preserving accuracy. The proposed framework is applied to video instance segmentation which is one of the most challenging machine vision tasks, and the energy consumption efficiency of the proposed framework has significantly surpassed all baseline methods of similar accuracy on the YouTube-VIS dataset.
updated: Fri Apr 09 2021 15:44:06 GMT+0000 (UTC)
published: Fri Apr 09 2021 15:44:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト