arXiv reaDer
マルチモーダル自己教師あり学習によるプログレッシブ ビデオ要約
Progressive Video Summarization via Multimodal Self-supervised Learning
最新のビデオ要約方法は、トレーニングに大量の注釈付きデータを必要とするディープ ニューラル ネットワークに基づいています。ただし、ビデオの要約用の既存のデータセットは小規模であり、ディープ モデルの過適合に容易につながります。大規模なデータセットの注釈には時間がかかることを考慮して、マルチモーダルな自己教師あり学習フレームワークを提案して、ビデオの意味表現を取得します。これは、ビデオの要約タスクに役立ちます。具体的には、自己教師あり学習は、粗粒度と細粒度の両方の方法でビデオとテキスト間の意味の一貫性を調査し、ビデオ内のマスクされたフレームを回復することによって行われます。マルチモーダル フレームワークは、ビデオとテキストのペアで構成される新しく収集されたデータセットでトレーニングされます。さらに、ビデオの重要なコンテンツを段階的に特定してより良い要約を生成する、プログレッシブ ビデオ要約方法を導入します。広範な実験により、順位相関係数と F スコアにおける本手法の有効性と優位性が証明されました。
Modern video summarization methods are based on deep neural networks that require a large amount of annotated data for training. However, existing datasets for video summarization are small-scale, easily leading to over-fitting of the deep models. Considering that the annotation of large-scale datasets is time-consuming, we propose a multimodal self-supervised learning framework to obtain semantic representations of videos, which benefits the video summarization task. Specifically, the self-supervised learning is conducted by exploring the semantic consistency between the videos and text in both coarse-grained and fine-grained fashions, as well as recovering masked frames in the videos. The multimodal framework is trained on a newly-collected dataset that consists of video-text pairs. Additionally, we introduce a progressive video summarization method, where the important content in a video is pinpointed progressively to generate better summaries. Extensive experiments have proved the effectiveness and superiority of our method in rank correlation coefficients and F-score.
updated: Wed Oct 19 2022 05:01:13 GMT+0000 (UTC)
published: Fri Jan 07 2022 15:21:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト