arXiv reaDer
ワンショット時文定位のための仮説ツリー構築
Hypotheses Tree Building for One-Shot Temporal Sentence Localization
トリミングされていないビデオが与えられた場合、時間文ローカリゼーション (TSL) は、特定のセンテンス クエリに従って特定のセグメントをローカライズすることを目的としています。立派な作品はこのタスクでまともな成果を上げていますが、収集するのに多大な人間の努力を必要とする高密度のビデオフレーム注釈に大きく依存しています.このホワイト ペーパーでは、別のより実用的で挑戦的な設定を対象としています。これは、1 つの注釈付きフレームのみを使用して、ビデオ全体からクエリ情報を取得することを学習するワンショット テンポラル センテンス ローカリゼーション (ワンショット TSL) です。特に、複数の仮説セグメント ツリー (MHST) と呼ばれるワンショット TSL の効果的で斬新なツリー構造ベースラインを提案し、不十分な注釈の下でクエリ認識の識別フレーム単位の情報を取得します。各ビデオ フレームはリーフ ノードとして取得され、同じ視覚言語セマンティクスを共有する隣接フレームは、ツリー構築のために上位の非リーフ ノードにマージされます。最後に、各ルート ノードは、そのリーフ ノードの連続フレームを含む個々のセグメント仮説です。ツリーの構築中に、クエリに関係のないノードの干渉を排除するための剪定戦略も導入します。設計された自己教師付き損失関数により、MHST は、クエリを使用してランキングと選択のための高品質のセグメント仮説を生成できます。 2 つの挑戦的なデータセットでの実験は、MHST が既存の方法と比較して競争力のあるパフォーマンスを達成することを示しています。
Given an untrimmed video, temporal sentence localization (TSL) aims to localize a specific segment according to a given sentence query. Though respectable works have made decent achievements in this task, they severely rely on dense video frame annotations, which require a tremendous amount of human effort to collect. In this paper, we target another more practical and challenging setting: one-shot temporal sentence localization (one-shot TSL), which learns to retrieve the query information among the entire video with only one annotated frame. Particularly, we propose an effective and novel tree-structure baseline for one-shot TSL, called Multiple Hypotheses Segment Tree (MHST), to capture the query-aware discriminative frame-wise information under the insufficient annotations. Each video frame is taken as the leaf-node, and the adjacent frames sharing the same visual-linguistic semantics will be merged into the upper non-leaf node for tree building. At last, each root node is an individual segment hypothesis containing the consecutive frames of its leaf-nodes. During the tree construction, we also introduce a pruning strategy to eliminate the interference of query-irrelevant nodes. With our designed self-supervised loss functions, our MHST is able to generate high-quality segment hypotheses for ranking and selection with the query. Experiments on two challenging datasets demonstrate that MHST achieves competitive performance compared to existing methods.
updated: Sun Jan 15 2023 11:36:45 GMT+0000 (UTC)
published: Thu Jan 05 2023 01:50:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト