arXiv reaDer
時相文グラウンディングのための変換等価整合性学習
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding
この論文では、テンポラル センテンス グラウンディング (TSG) について説明します。既存の方法はこのタスクでまともな成果を上げていますが、トレーニングのために豊富なビデオクエリペアデータに大きく依存するだけでなく、データセットの分散バイアスに簡単に失敗します.これらの制限を軽減するために、自己教師付きの方法で、各ビデオのより識別可能なクエリ関連のフレーム単位の表現を学習するための新しい Equivariant Consistency Regulation Learning (ECRL) フレームワークを導入します。私たちの動機は、さまざまなビデオレベルの変換の下で、クエリガイド付きアクティビティの時間的境界を一貫して予測する必要があるということです。具体的には、まず前景ビデオ セグメントと背景ビデオ セグメントの両方で一連の時空間拡張を設計し、一連の合成ビデオ サンプルを生成します。特に、拡張されたビデオの完全性と滑らかさを向上させるために、自己洗練モジュールを考案します。次に、元の動画と拡張された動画に適用される新しい自己教師あり一貫性損失 (SSCL) を提示し、2 つの動画のシーケンス類似性とタイムスタンプ距離の以前のガウス分布との間の KL ダイバージェンスを最小化することにより、不変のクエリ関連セマンティックをキャプチャします。 .最後に、共有グラウンディング ヘッドを導入して、元の動画と拡張された動画の両方について、変換が等価なクエリ ガイド付きセグメントの境界を予測します。 3 つの挑戦的なデータセット (ActivityNet、TACoS、および Charades-STA) での広範な実験は、提案された ECRL フレームワークの有効性と効率の両方を示しています。
This paper addresses the temporal sentence grounding (TSG). Although existing methods have made decent achievements in this task, they not only severely rely on abundant video-query paired data for training, but also easily fail into the dataset distribution bias. To alleviate these limitations, we introduce a novel Equivariant Consistency Regulation Learning (ECRL) framework to learn more discriminative query-related frame-wise representations for each video, in a self-supervised manner. Our motivation comes from that the temporal boundary of the query-guided activity should be consistently predicted under various video-level transformations. Concretely, we first design a series of spatio-temporal augmentations on both foreground and background video segments to generate a set of synthetic video samples. In particular, we devise a self-refine module to enhance the completeness and smoothness of the augmented video. Then, we present a novel self-supervised consistency loss (SSCL) applied on the original and augmented videos to capture their invariant query-related semantic by minimizing the KL-divergence between the sequence similarity of two videos and a prior Gaussian distribution of timestamp distance. At last, a shared grounding head is introduced to predict the transform-equivariant query-guided segment boundaries for both the original and augmented videos. Extensive experiments on three challenging datasets (ActivityNet, TACoS, and Charades-STA) demonstrate both effectiveness and efficiency of our proposed ECRL framework.
updated: Sat May 06 2023 19:29:28 GMT+0000 (UTC)
published: Sat May 06 2023 19:29:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト