ビデオの言語クエリを一時的にグラウンディングするタスクは、特定の言語(文)に対応する最適なビデオセグメントを一時的にローカライズすることです。視覚的理解と言語的理解を同時に実行するには、特定のモデルが必要です。以前の研究では、主にセグメントのローカライズの精度が無視されていました。スライディングウィンドウベースの方法では、定義済みの検索ウィンドウサイズを使用しますが、これは冗長な計算に悩まされますが、既存のアンカーベースのアプローチでは正確なローカリゼーションができません。この問題に対処するには、エンドツーエンドの境界認識モデルを提案します。このモデルでは、軽量ブランチを使用して、特定の言語情報に対応するセマンティック境界を予測します。セマンティック境界をより適切に検出するために、現在の要素とその隣接要素との関係を明示的にモデリングすることにより、コンテキスト情報を集約することを提案します。その後、テスト段階でアンカー予測と境界予測の両方に基づいて、最も信頼できるセグメントが選択されます。提案されたモデルは、Contextual Boundary-aware Prediction(CBP)と呼ばれ、3つの公開データセットで明確なマージンを持ち、競合他社よりも優れています。すべてのコードはhttps://github.com/JaywongWang/CBPで入手できます。
The task of temporally grounding language queries in videos is to temporally localize the best matched video segment corresponding to a given language (sentence). It requires certain models to simultaneously perform visual and linguistic understandings. Previous work predominantly ignores the precision of segment localization. Sliding window based methods use predefined search window sizes, which suffer from redundant computation, while existing anchor-based approaches fail to yield precise localization. We address this issue by proposing an end-to-end boundary-aware model, which uses a lightweight branch to predict semantic boundaries corresponding to the given linguistic information. To better detect semantic boundaries, we propose to aggregate contextual information by explicitly modeling the relationship between the current element and its neighbors. The most confident segments are subsequently selected based on both anchor and boundary predictions at the testing stage. The proposed model, dubbed Contextual Boundary-aware Prediction (CBP), outperforms its competitors with a clear margin on three public datasets. All codes are available on https://github.com/JaywongWang/CBP .