arXiv reaDer
テキストとモーメントを共同最適化することによるゼロショットの高密度ビデオキャプション
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment
意味のある瞬間の位置を特定し、ビデオに関連するキャプションを生成する高密度のビデオ キャプション付けでは、多くの場合、テキストと組み合わせた注釈付きのビデオ セグメントの大規模で高価なコーパスが必要になります。アノテーションのコストを最小限に抑えるために、ゼロショット方式で高密度ビデオキャプションを付けるための新しい方法である ZeroTA を提案します。私たちの方法では、トレーニングにビデオや注釈を必要としません。代わりに、入力のみを最適化することで、テスト時に各入力ビデオ内のイベントをローカライズして記述します。これは、ビデオ内の時間セグメントを表すソフト モーメント マスクを導入し、言語モデルのプレフィックス パラメーターと組み合わせて最適化することによって実現されます。この共同最適化は、生成されたテキストとビデオ内の瞬間の間の一致スコアを最大化することによって、凍結言語生成モデル (つまり GPT-2) を凍結視覚言語対照モデル (つまり CLIP) と調整します。また、ペアごとの時間 IoU 損失を導入して、一連のソフト モーメント マスクがビデオ内の複数の個別のイベントをキャプチャできるようにします。私たちの方法は、ビデオ内のさまざまな重要なイベントを効果的に発見し、結果として得られるキャプションがこれらのイベントを適切に説明します。実証結果は、ZeroTA がゼロショット ベースラインを上回り、広く使用されているベンチマーク ActivityNet Captions で最先端の少数ショット法をも上回るパフォーマンスを示していることを示しています。さらに、私たちの方法は、ドメイン外のシナリオで評価した場合、教師あり方法と比較して優れた堅牢性を示します。この研究は、言語生成モデルや視覚言語モデルなどの広く使用されているモデルを調整して、ビデオの時間的側面を理解するという新しい機能を解放する可能性についての洞察を提供します。
Dense video captioning, a task of localizing meaningful moments and generating relevant captions for videos, often requires a large, expensive corpus of annotated video segments paired with text. In an effort to minimize the annotation cost, we propose ZeroTA, a novel method for dense video captioning in a zero-shot manner. Our method does not require any videos or annotations for training; instead, it localizes and describes events within each input video at test time by optimizing solely on the input. This is accomplished by introducing a soft moment mask that represents a temporal segment in the video and jointly optimizing it with the prefix parameters of a language model. This joint optimization aligns a frozen language generation model (i.e., GPT-2) with a frozen vision-language contrastive model (i.e., CLIP) by maximizing the matching score between the generated text and a moment within the video. We also introduce a pairwise temporal IoU loss to let a set of soft moment masks capture multiple distinct events within the video. Our method effectively discovers diverse significant events within the video, with the resulting captions appropriately describing these events. The empirical results demonstrate that ZeroTA surpasses zero-shot baselines and even outperforms the state-of-the-art few-shot method on the widely-used benchmark ActivityNet Captions. Moreover, our method shows greater robustness compared to supervised methods when evaluated in out-of-domain scenarios. This research provides insight into the potential of aligning widely-used models, such as language generation models and vision-language models, to unlock a new capability: understanding temporal aspects of videos.
updated: Wed Jul 05 2023 23:01:26 GMT+0000 (UTC)
published: Wed Jul 05 2023 23:01:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト