arXiv reaDer
Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers
ビデオキャプションは、シーンを理解し、自然言語でイベントを説明するために不可欠なテクノロジーです。これをリアルタイム監視に適用するには、システムはイベントを正確に記述するだけでなく、できるだけ早くキャプションを作成する必要があります。このような機能を実現するには、低遅延のキャプションが必要ですが、このオンラインビデオキャプションの研究分野はまだ追求されていません。この論文では、待ち時間とキャプションの品質の間のトレードオフに基づいて、各キャプションの出力タイミングを最適化するための新しいアプローチを提案します。オーディオビジュアルトランスフォーマーは、すべてのビデオフレームのごく一部のみを使用してグラウンドトゥルースキャプションを生成し、すべてのフレームが与えられる事前トレーニング済みのトランスフォーマーの出力を模倣するようにトレーニングされています。 CNNベースのタイミング検出器は、適切な出力タイミングを検出するようにトレーニングされています。この場合、2つのトランスフォーマーによって生成されたキャプションが互いに十分に近くなります。共同でトレーニングされたTransformerとタイミング検出器を使用すると、イベントが発生するとすぐに、または予測できるときに、イベントによってトリガーされるビデオクリップの初期段階でキャプションを生成できます。 ActivityNet Captionsデータセットを使用した実験では、最初からフレームの28%のみを使用して、ビデオクリップ全体を使用して事前トレーニング済みのTransformerによって与えられた上限のキャプション品質の94%を達成することが示されています。
Video captioning is an essential technology to understand scenes and describe events in natural language. To apply it to real-time monitoring, a system needs not only to describe events accurately but also to produce the captions as soon as possible. Low-latency captioning is needed to realize such functionality, but this research area for online video captioning has not been pursued yet. This paper proposes a novel approach to optimize each caption's output timing based on a trade-off between latency and caption quality. An audio-visual Trans-former is trained to generate ground-truth captions using only a small portion of all video frames, and to mimic outputs of a pre-trained Transformer to which all the frames are given. A CNN-based timing detector is also trained to detect a proper output timing, where the captions generated by the two Trans-formers become sufficiently close to each other. With the jointly trained Transformer and timing detector, a caption can be generated in the early stages of an event-triggered video clip, as soon as an event happens or when it can be forecasted. Experiments with the ActivityNet Captions dataset show that our approach achieves 94% of the caption quality of the upper bound given by the pre-trained Transformer using the entire video clips, using only 28% of frames from the beginning.
updated: Wed Aug 04 2021 16:20:00 GMT+0000 (UTC)
published: Wed Aug 04 2021 16:20:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト