ビデオでは、オブジェクトは通常軌跡として表示されます。つまり、オブジェクトは、豊富な時空間コンテキストを含む、いくつかの空間的だがより長い時間パッチにまたがります。ただし、最新のビデオ言語BERT(VDL-BERT)は、通常、画像言語BERT(IL-BERT)に従って、些細な空間コンテキストを過剰に利用する可能性のあるパッチツーワード(P2W)の注意を展開するという軌跡特性を無視しています。重要な時間的文脈を無視します。これを修正するために、ビデオ言語タスクを解決するために新しく設計された軌道から単語への(T2W)注意によって軌道と単語のアライメントを学習する新しいTW-BERTを提案します。さらに、以前の VDL-BERT は通常、数フレームをモデルに均一にサンプリングしますが、異なる軌跡にはさまざまな粒度があります。つまり、一部の軌跡はより長いフレームにまたがり、一部はより短いフレームにまたがり、いくつかのフレームを使用すると、特定の有用な時間的コンテキストが失われます。ただし、単により多くのフレームをサンプリングすると、トレーニングの負担が大幅に増加するため、事前トレーニングも実行不可能になります。この問題を軽減するために、微調整段階で、新しい Hierarchical Frame-Selector (HFS) モジュールをビデオ エンコーダーに挿入します。 HFS は、後のクロスモーダル エンコーダーがより適切な軌跡と単語の配置を学習するために、テキスト コンテキストに合わせて適切なフレームを徐々に選択します。提案されたT2WアテンションとHFSにより、TW-BERTは、テキストからビデオへの検索タスクでSOTAパフォーマンスを達成し、ビデオの質問応答タスクで、より多くのデータでトレーニングされたいくつかのVDL-BERTと同等のパフォーマンスを達成します。コードは補足資料で入手できます。
In a video, an object usually appears as the trajectory, i.e., it spans over a few spatial but longer temporal patches, that contains abundant spatiotemporal contexts. However, modern Video-Language BERTs (VDL-BERTs) neglect this trajectory characteristic that they usually follow image-language BERTs (IL-BERTs) to deploy the patch-to-word (P2W) attention that may over-exploit trivial spatial contexts and neglect significant temporal contexts. To amend this, we propose a novel TW-BERT to learn Trajectory-Word alignment by a newly designed trajectory-to-word (T2W) attention for solving video-language tasks. Moreover, previous VDL-BERTs usually uniformly sample a few frames into the model while different trajectories have diverse graininess, i.e., some trajectories span longer frames and some span shorter, and using a few frames will lose certain useful temporal contexts. However, simply sampling more frames will also make pre-training infeasible due to the largely increased training burdens. To alleviate the problem, during the fine-tuning stage, we insert a novel Hierarchical Frame-Selector (HFS) module into the video encoder. HFS gradually selects the suitable frames conditioned on the text context for the later cross-modal encoder to learn better trajectory-word alignments. By the proposed T2W attention and HFS, our TW-BERT achieves SOTA performances on text-to-video retrieval tasks, and comparable performances on video question-answering tasks with some VDL-BERTs trained on much more data. The code will be available in the supplementary material.