継続的なモバイルビジョンにおけるディープラーニング推論のための原理的なキャッシュ設計であるDeepCacheを紹介します。 DeepCacheは、入力ビデオストリームの時間的な局所性を活用することで、モデルの実行効率を向上させます。これは、モバイルビジョンが提起する重要な課題に対処します。キャッシュは、ビデオシーンの変動の下で動作すると同時に、キャッシュ可能性、オーバーヘッド、モデルの精度の低下を犠牲にする必要があります。モデルの入力時に、DeepCacheはビデオの内部構造を利用してビデオの時間的局所性を検出します。ビデオの内部構造は、ビデオ圧縮から実証済みのヒューリスティックを借用しています。 DeepCacheはモデルに、モデルの内部構造を利用して再利用可能な結果の領域を伝播します。特に、DeepCacheは、ピクセルではなく高次元で解釈が難しいデータである内部モデルをビデオヒューリスティックを適用することを避けます。 DeepCacheの実装は、変更されていないディープラーニングモデルで動作し、開発者の手動による労力を必要としないため、既製のモバイルデバイスにすぐに展開できます。私たちの実験は、DeepCacheが推論の実行時間を平均で18%、最大47%節約できることを示しています。 DeepCacheは、システムのエネルギー消費量を平均で20%削減します。
We present DeepCache, a principled cache design for deep learning inference in continuous mobile vision. DeepCache benefits model execution efficiency by exploiting temporal locality in input video streams. It addresses a key challenge raised by mobile vision: the cache must operate under video scene variation, while trading off among cacheability, overhead, and loss in model accuracy. At the input of a model, DeepCache discovers video temporal locality by exploiting the video's internal structure, for which it borrows proven heuristics from video compression; into the model, DeepCache propagates regions of reusable results by exploiting the model's internal structure. Notably, DeepCache eschews applying video heuristics to model internals which are not pixels but high-dimensional, difficult-to-interpret data. Our implementation of DeepCache works with unmodified deep learning models, requires zero developer's manual effort, and is therefore immediately deployable on off-the-shelf mobile devices. Our experiments show that DeepCache saves inference execution time by 18% on average and up to 47%. DeepCache reduces system energy consumption by 20% on average.