arXiv reaDer
時の試練: ビデオ言語モデルに時間の感覚を浸透させる
Test of Time: Instilling Video-Language Models with a Sense of Time
時間をモデリングして理解することは、現代のビデオ理解モデルでは依然として課題です。強力な一般化に向けた重要な原動力として言語が台頭してきているため、基本的なビデオ言語モデルに時間の感覚を持たせることが不可欠です。この論文では、時間的理解の特定の側面、つまり前後の関係によって引き出される時間順序の一貫性について考察します。既存の 7 つのビデオ言語モデルは、このような単純な時間関係でさえ理解するのに苦労していることを立証します。次に、これらの基本モデルにゼロから再トレーニングせずに時間認識を装備することが実現可能かどうかを疑問視します。これに向けて、少量のビデオ テキスト データの事後事前トレーニングに基づいて、そのようなモデルの 1 つである VideoCLIP の上に一時的な適応レシピを提案します。さまざまな程度の時間認識を必要とする 3 つのダウンストリーム タスクに対して、6 つのデータセットで適応モデルのゼロ ショット評価を行います。タスクがより高い時間認識を必要とする場合は特に、パフォーマンスの向上が見られます。私たちの仕事は、データや計算負荷の高いトレーニングをゼロから行う必要なく、既存のビデオ言語モデルを調べて時間の感覚を浸透させるための最初のステップとして機能します。
Modelling and understanding time remains a challenge in contemporary video understanding models. With language emerging as a key driver towards powerful generalization, it is imperative for foundational video-language models to have a sense of time. In this paper, we consider a specific aspect of temporal understanding: consistency of time order as elicited by before/after relations. We establish that seven existing video-language models struggle to understand even such simple temporal relations. We then question whether it is feasible to equip these foundational models with temporal awareness without re-training them from scratch. Towards this, we propose a temporal adaptation recipe on top of one such model, VideoCLIP, based on post-pretraining on a small amount of video-text data. We conduct a zero-shot evaluation of the adapted models on six datasets for three downstream tasks which require varying degrees of time awareness. We observe encouraging performance gains especially when the task needs higher time awareness. Our work serves as a first step towards probing and instilling a sense of time in existing video-language models without the need for data and compute-intense training from scratch.
updated: Sat Mar 25 2023 12:44:50 GMT+0000 (UTC)
published: Thu Jan 05 2023 14:14:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト