arXiv reaDer
効率的なビデオ推論のためのオンラインモデル蒸留
Online Model Distillation for Efficient Video Inference
 高品質のコンピュータービジョンモデルは通常、現実世界の画像の一般的な分布を理解する問題に対処します。ただし、ほとんどのカメラは、この分布のごく一部しか観察しません。これにより、コンパクトで低コストのモデルを、単一のカメラで観察されるフレームの特定の分布に特化することにより、より効率的な推論を実現できます。このホワイトペーパーでは、モデルの蒸留(高コストの教師の出力を使用した低コストの学生モデルの監視)の手法を使用して、正確で低コストのセマンティックセグメンテーションモデルをターゲットビデオストリームに特化します。ビデオストリームのオフラインデータで特殊な学生モデルを学習するのではなく、ライブビデオで学生をオンライン形式でトレーニングし、教師を断続的に実行して学習のターゲットを提供します。オンラインモデルの蒸留により、ターゲットビデオの配信が非定常である場合でも、マスクのR-CNN教師を7〜17倍低い推論ランタイムコスト(FLOPでは11〜26倍)に近づけるセマンティックセグメンテーションモデルが生成されます。この方法は、ターゲットビデオストリームでのオフライン事前トレーニングを必要とせず、フローまたはビデオオブジェクトのセグメンテーションに基づくソリューションよりも高い精度と低コストを実現し、元の教師よりも優れた時間的安定性を示します。また、長時間のビデオストリームに対する推論の効率を評価するための新しいビデオデータセットも提供します。
High-quality computer vision models typically address the problem of understanding the general distribution of real-world images. However, most cameras observe only a very small fraction of this distribution. This offers the possibility of achieving more efficient inference by specializing compact, low-cost models to the specific distribution of frames observed by a single camera. In this paper, we employ the technique of model distillation (supervising a low-cost student model using the output of a high-cost teacher) to specialize accurate, low-cost semantic segmentation models to a target video stream. Rather than learn a specialized student model on offline data from the video stream, we train the student in an online fashion on the live video, intermittently running the teacher to provide a target for learning. Online model distillation yields semantic segmentation models that closely approximate their Mask R-CNN teacher with 7 to 17× lower inference runtime cost (11 to 26× in FLOPs), even when the target video's distribution is non-stationary. Our method requires no offline pretraining on the target video stream, achieves higher accuracy and lower cost than solutions based on flow or video object segmentation, and can exhibit better temporal stability than the original teacher. We also provide a new video dataset for evaluating the efficiency of inference over long running video streams.
updated: Mon Jan 27 2020 21:57:10 GMT+0000 (UTC)
published: Thu Dec 06 2018 18:29:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト