arXiv reaDer
マルチモーダルビデオキャプションのためのエンドツーエンドの生成的事前トレーニング
End-to-end Generative Pretraining for Multimodal Video Captioning
最近のビデオと言語の事前トレーニングフレームワークには、文を生成する機能がありません。マルチモーダルビデオキャプションなどの生成タスクに効果的に使用できる、ラベルのないビデオから学習するための新しい事前トレーニングフレームワークであるマルチモーダルビデオ生成事前トレーニング(MV-GPT)を紹介します。最近のビデオ言語事前トレーニングフレームワークとは異なり、私たちのフレームワークは、マルチモーダルビデオエンコーダーとセンテンスデコーダーの両方を共同でトレーニングします。ラベルのないビデオのキャプションの不足を克服するために、追加のテキストソースとして将来の発話を活用し、双方向の生成目標を提案します。現在のマルチモーダルコンテキストを前提として将来の発話を生成し、将来の観測を前提として現在の発話も生成します。この目的で、エンコーダー-デコーダーモデルをエンドツーエンドでトレーニングして、生のピクセルと文字起こしされた音声から直接キャプションを生成します。私たちのモデルは、4つの標準ベンチマークでのマルチモーダルビデオキャプション、およびVideoQA、ビデオ検索、アクション分類などの他のビデオ理解タスクで最先端のパフォーマンスを実現します。
Recent video and language pretraining frameworks lack the ability to generate sentences. We present Multimodal Video Generative Pretraining (MV-GPT), a new pretraining framework for learning from unlabelled videos which can be effectively used for generative tasks such as multimodal video captioning. Unlike recent video-language pretraining frameworks, our framework trains both a multimodal video encoder and a sentence decoder jointly. To overcome the lack of captions in unlabelled videos, we leverage the future utterance as an additional text source and propose a bidirectional generation objective -- we generate future utterances given the present mulitmodal context, and also the present utterance given future observations. With this objective, we train an encoder-decoder model end-to-end to generate a caption from raw pixels and transcribed speech directly. Our model achieves state-of-the-art performance for multimodal video captioning on four standard benchmarks, as well as for other video understanding tasks such as VideoQA, video retrieval and action classification.
updated: Tue May 10 2022 09:36:22 GMT+0000 (UTC)
published: Thu Jan 20 2022 16:16:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト