arXiv reaDer
圧縮ビデオのビデオキャプション
Video Captioning in Compressed Video
ビデオキャプションの既存のアプローチは、非圧縮ビデオのグローバルフレーム機能の調査に集中していますが、圧縮ビデオにすでにエンコードされている無料の重要な顕著性情報は、一般的に無視されています。保存された圧縮ビデオを直接操作するビデオキャプション方式を提案します。ビデオキャプションの識別可能な視覚的表現を学習するために、残差フレームの支援の下でIフレーム内の関心領域を見つける残差支援エンコーダー(RAE)を設計します。まず、Iフレーム内の各場所の顕著性値として残差の特徴を抽出することによって空間的注意の重みを取得し、注意の重みを調整するための空間的注意モジュールを設計します。さらに、時間ゲートモジュールを提案して、出席した機能がキャプションの生成にどの程度寄与するかを決定します。これにより、モデルは、圧縮されたビデオ内のノイズの多い信号の妨害に抵抗できます。最後に、長短期記憶を利用して、視覚的表現を説明にデコードします。 2つのベンチマークデータセットでメソッドを評価し、アプローチの有効性を示します。
Existing approaches in video captioning concentrate on exploring global frame features in the uncompressed videos, while the free of charge and critical saliency information already encoded in the compressed videos is generally neglected. We propose a video captioning method which operates directly on the stored compressed videos. To learn a discriminative visual representation for video captioning, we design a residuals-assisted encoder (RAE), which spots regions of interest in I-frames under the assistance of the residuals frames. First, we obtain the spatial attention weights by extracting features of residuals as the saliency value of each location in I-frame and design a spatial attention module to refine the attention weights. We further propose a temporal gate module to determine how much the attended features contribute to the caption generation, which enables the model to resist the disturbance of some noisy signals in the compressed videos. Finally, Long Short-Term Memory is utilized to decode the visual representations into descriptions. We evaluate our method on two benchmark datasets and demonstrate the effectiveness of our approach.
updated: Sat Jan 02 2021 03:06:03 GMT+0000 (UTC)
published: Sat Jan 02 2021 03:06:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト