arXiv reaDer
ビデオの効率的な姿勢推定のための動的カーネル蒸留
Dynamic Kernel Distillation for Efficient Pose Estimation in Videos
  既存のビデオベースの人間の姿勢推定方法は、ビデオのすべてのフレームに大規模なネットワークを広範囲に適用して身体の関節をローカライズします。これは、計算コストが高く、現実的なアプリケーションの低遅延要件をほとんど満たしません。この問題に対処するために、ビデオ内の人間のポーズを推定するための小さなネットワークを容易にする新しいDynamic Kernel Distillation(DKD)モデルを提案し、効率を大幅に向上させます。特に、DKDは、前のフレームからの一時的なキューをワンショットフィードフォワード方式で活用することにより、オンラインの蒸留ポーズカーネルに軽量の蒸留器を導入しています。次に、DKDは、体の関節の位置特定を単純化して、ポーズカーネルと現在のフレーム間のマッチングプロシージャに単純化します。これは、単純な畳み込みによって効率的に計算できます。このように、DKDは1つのフレームからポーズの知識を高速で転送し、次のフレームで身体の関節位置確認のためのコンパクトなガイダンスを提供します。これにより、ビデオベースのポーズ推定で小さなネットワークを利用できます。トレーニングプロセスを促進するために、DKDは時間弁別子を導入する時間的敵対的トレーニング戦略を活用して、時間的にコヒーレントなポーズカーネルを生成し、長い範囲で推定結果をポーズします。 Penn ActionおよびSub-JHMDBベンチマークの実験では、DKDのパフォーマンス、特に10倍のフロップの削減と、以前のベストモデルの2倍の高速化、および最先端の精度を示しています。
Existing video-based human pose estimation methods extensively apply large networks onto every frame in the video to localize body joints, which suffer high computational cost and hardly meet the low-latency requirement in realistic applications. To address this issue, we propose a novel Dynamic Kernel Distillation (DKD) model to facilitate small networks for estimating human poses in videos, thus significantly lifting the efficiency. In particular, DKD introduces a light-weight distillator to online distill pose kernels via leveraging temporal cues from the previous frame in a one-shot feed-forward manner. Then, DKD simplifies body joint localization into a matching procedure between the pose kernels and the current frame, which can be efficiently computed via simple convolution. In this way, DKD fast transfers pose knowledge from one frame to provide compact guidance for body joint localization in the following frame, which enables utilization of small networks in video-based pose estimation. To facilitate the training process, DKD exploits a temporally adversarial training strategy that introduces a temporal discriminator to help generate temporally coherent pose kernels and pose estimation results within a long range. Experiments on Penn Action and Sub-JHMDB benchmarks demonstrate outperforming efficiency of DKD, specifically, 10x flops reduction and 2x speedup over previous best model, and its state-of-the-art accuracy.
updated: Sat Aug 24 2019 21:44:02 GMT+0000 (UTC)
published: Sat Aug 24 2019 21:44:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト