arXiv reaDer
EVOQUER:ビデオピボットのBackQuery生成による時間的グラウンディングの強化
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation
時間的接地は、自然言語のクエリ入力に対応するビデオクリップの時間間隔を予測することを目的としています。この作業では、既存のテキストからビデオへの接地モデルとビデオ支援クエリ生成ネットワークを組み込んだ一時的な接地フレームワークであるEVOQUERを紹介します。クエリとトリミングされていないビデオが与えられると、時間的接地モデルはターゲット間隔を予測し、予測されたビデオクリップは、入力クエリの簡略化されたバージョンを生成することによってビデオ変換タスクに送られます。 EVOQUERは、フィードバックとして機能する一時的な接地とクエリ生成の両方からの損失関数を組み込むことにより、閉ループ学習を形成します。広く使用されている2つのデータセット、Charades-STAとActivityNetでの実験では、EVOQUERがR @ 0.7で1.05と1.31の有望な改善を達成していることが示されています。また、一時的な接地モデルの動作を説明することにより、クエリ生成タスクがエラー分析を容易にする方法についても説明します。
Temporal grounding aims to predict a time interval of a video clip corresponding to a natural language query input. In this work, we present EVOQUER, a temporal grounding framework incorporating an existing text-to-video grounding model and a video-assisted query generation network. Given a query and an untrimmed video, the temporal grounding model predicts the target interval, and the predicted video clip is fed into a video translation task by generating a simplified version of the input query. EVOQUER forms closed-loop learning by incorporating loss functions from both temporal grounding and query generation serving as feedback. Our experiments on two widely used datasets, Charades-STA and ActivityNet, show that EVOQUER achieves promising improvements by 1.05 and 1.31 at R@0.7. We also discuss how the query generation task could facilitate error analysis by explaining temporal grounding model behavior.
updated: Fri Sep 10 2021 00:30:36 GMT+0000 (UTC)
published: Fri Sep 10 2021 00:30:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト