arXiv reaDer
VIOLET:マスクされたビジュアルトークンモデリングを備えたエンドツーエンドのビデオ言語トランスフォーマー
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling
ビデオ言語(VidL)モデリングの大きな課題は、画像/ビデオ理解モデルから抽出された固定ビデオ表現とダウンストリームのVidLデータとの間の切断にあります。最近の研究では、エンドツーエンドのトレーニングを介してこの切断を軽減しようとしています。計算を実行可能にするために、以前の作業ではビデオ入力を「想像」する傾向があります。つまり、まばらにサンプリングされた少数のフレームが2D CNNに送られ、その後に単純な平均プーリングまたは連結が行われて、全体的なビデオ表現が取得されます。有望な結果を達成するものの、そのような単純なアプローチは、ダウンストリームのVidLタスクを実行するために不可欠な時間情報を失う可能性があります。この作業では、完全にエンドツーエンドのVIdeO-LanguagEトランスフォーマーであるVIOLETを紹介します。これは、ビデオトランスフォーマーを採用して、ビデオ入力の時間的ダイナミクスを明示的にモデル化します。さらに、ビデオ入力の事前トレーニングタスク(マスクされたフレームモデリングなど)があまり効果的でないことがわかった以前の研究とは異なり、ビデオモデリングを改善するために、新しい事前トレーニングタスクであるマスクされたビジュアルトークンモデリング(MVM)を設計します。具体的には、元のビデオフレームパッチは個別のビジュアルトークンに「トークン化」され、目標はマスクされたパッチに基づいて元のビジュアルトークンを復元することです。包括的な分析は、ビデオトランスフォーマーとMVMを介した明示的な時間モデリングの両方の有効性を示しています。その結果、VIOLETは、5つのビデオ質問応答タスクと4つのテキストからビデオへの検索タスクで新しい最先端のパフォーマンスを実現します。
A great challenge in video-language (VidL) modeling lies in the disconnection between fixed video representations extracted from image/video understanding models and downstream VidL data. Recent studies try to mitigate this disconnection via end-to-end training. To make it computationally feasible, prior works tend to "imagify" video inputs, i.e., a handful of sparsely sampled frames are fed into a 2D CNN, followed by a simple mean-pooling or concatenation to obtain the overall video representations. Although achieving promising results, such simple approaches may lose temporal information that is essential for performing downstream VidL tasks. In this work, we present VIOLET, a fully end-to-end VIdeO-LanguagE Transformer, which adopts a video transformer to explicitly model the temporal dynamics of video inputs. Further, unlike previous studies that found pre-training tasks on video inputs (e.g., masked frame modeling) not very effective, we design a new pre-training task, Masked Visual-token Modeling (MVM), for better video modeling. Specifically, the original video frame patches are "tokenized" into discrete visual tokens, and the goal is to recover the original visual tokens based on the masked patches. Comprehensive analysis demonstrates the effectiveness of both explicit temporal modeling via video transformer and MVM. As a result, VIOLET achieves new state-of-the-art performance on 5 video question answering tasks and 4 text-to-video retrieval tasks.
updated: Wed Nov 24 2021 18:31:20 GMT+0000 (UTC)
published: Wed Nov 24 2021 18:31:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト