arXiv reaDer
シーケンス生成としてのエンドツーエンドの高密度ビデオ キャプション
End-to-end Dense Video Captioning as Sequence Generation
高密度ビデオ キャプションの目的は、入力ビデオで関心のあるイベントを識別し、各イベントの説明的なキャプションを生成することです。以前のアプローチは通常、2 段階の生成プロセスに従います。最初に各イベントのセグメントを提案し、次に識別された各セグメントのキャプションをレンダリングします。大規模なシーケンス生成の事前トレーニングにおける最近の進歩は、多種多様なタスクのタスク定式化を統一することに大きな成功を収めていますが、これまでのところ、高密度のビデオ キャプションなどのより複雑なタスクでは、この強力なパラダイムを十分に活用できていません。この作業では、高密度ビデオ キャプションの 2 つのサブタスクを 1 つのシーケンス生成タスクとしてまとめてモデル化し、イベントと対応する説明を同時に予測する方法を示します。 YouCook2 と ViTT の実験では有望な結果が示され、大規模な事前トレーニング済みモデルに統合されたエンドツーエンドの高密度ビデオ キャプションなどの複雑なタスクのトレーニングの実現可能性が示されています。
Dense video captioning aims to identify the events of interest in an input video, and generate descriptive captions for each event. Previous approaches usually follow a two-stage generative process, which first proposes a segment for each event, then renders a caption for each identified segment. Recent advances in large-scale sequence generation pretraining have seen great success in unifying task formulation for a great variety of tasks, but so far, more complex tasks such as dense video captioning are not able to fully utilize this powerful paradigm. In this work, we show how to model the two subtasks of dense video captioning jointly as one sequence generation task, and simultaneously predict the events and the corresponding descriptions. Experiments on YouCook2 and ViTT show encouraging results and indicate the feasibility of training complex tasks such as end-to-end dense video captioning integrated into large-scale pretrained models.
updated: Fri Sep 16 2022 05:44:53 GMT+0000 (UTC)
published: Mon Apr 18 2022 01:30:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト