大規模な畳み込みニューラルネットワークモデルは、最近、ビデオの注意予測で印象的なパフォーマンスを実証しました。従来、これらのモデルは集中的な計算と大きなメモリを使用しています。これらの問題に対処するために、私たちは、UVA-Netという名前の、超高速の非常に軽量なネットワークを設計します。ネットワークは、深さ方向の畳み込みに基づいて構築され、入力として低解像度の画像を取ります。ただし、この単純な加速方法はパフォーマンスを劇的に低下させます。この目的のために、ネットワークを効果的に増強およびトレーニングするための結合知識抽出戦略を提案します。この戦略により、モデルはデータに含まれる暗黙の有用なキューをさらに自動的に発見して強調することができます。高解像度の複雑な教師ネットワークによって学習された空間的および時間的知識は、蒸留され、提案された低解像度の軽量時空間ネットワークに転送されます。実験結果は、モデルのパフォーマンスがビデオアテンション予測の11の最新モデルに匹敵することを示していますが、メモリフットプリントはわずか0.68 MBで、GPUで約10,106 FPS、CPUで404 FPS(206)以前のモデルよりも倍高速。
Large convolutional neural network models have recently demonstrated impressive performance on video attention prediction. Conventionally, these models are with intensive computation and large memory. To address these issues, we design an extremely light-weight network with ultrafast speed, named UVA-Net. The network is constructed based on depth-wise convolutions and takes low-resolution images as input. However, this straight-forward acceleration method will decrease performance dramatically. To this end, we propose a coupled knowledge distillation strategy to augment and train the network effectively. With this strategy, the model can further automatically discover and emphasize implicit useful cues contained in the data. Both spatial and temporal knowledge learned by the high-resolution complex teacher networks also can be distilled and transferred into the proposed low-resolution light-weight spatiotemporal network. Experimental results show that the performance of our model is comparable to 11 state-of-the-art models in video attention prediction, while it costs only 0.68 MB memory footprint, runs about 10,106 FPS on GPU and 404 FPS on CPU, which is 206 times faster than previous models.