arXiv reaDer
一時的な文の接地のためのコンテキストアウェアなBiaffineローカライズネットワーク
Context-aware Biaffine Localizing Network for Temporal Sentence Grounding
この論文は、文のクエリによってトリミングされていないビデオから特定のセグメントの時間的境界を識別することを目的とする時間的文接地(TSG)の問題に対処します。以前の作業では、事前定義された候補セグメントをクエリと比較し、ランク付けによって最適なセグメントを選択するか、ターゲットセグメントの境界タイムスタンプを直接回帰します。この論文では、バイアフィンメカニズムと同時にビデオ内の開始インデックスと終了インデックスのすべてのペアをスコアリングする新しいローカリゼーションフレームワークを提案します。特に、ローカルコンテキストとグローバルコンテキストの両方をバイアフィンベースのローカリゼーションの各開始/終了位置の機能に組み込むコンテキストアウェアバイアフィンローカライズネットワーク(CBLN)を紹介します。隣接するフレームからのローカルコンテキストは、視覚的に類似した外観を区別するのに役立ち、ビデオ全体からのグローバルコンテキストは、時間的関係の推論に貢献します。さらに、マルチモーダル自己注意モジュールを開発して、このバイアフィン戦略のためのきめ細かいクエリガイド付きビデオ表現を提供します。広範な実験により、CBLNは3つの公開データセット(ActivityNet Captions、TACoS、およびCharades-STA)で最新技術を大幅に上回っており、提案されたローカリゼーションフレームワークの有効性が実証されています。
This paper addresses the problem of temporal sentence grounding (TSG), which aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. Previous works either compare pre-defined candidate segments with the query and select the best one by ranking, or directly regress the boundary timestamps of the target segment. In this paper, we propose a novel localization framework that scores all pairs of start and end indices within the video simultaneously with a biaffine mechanism. In particular, we present a Context-aware Biaffine Localizing Network (CBLN) which incorporates both local and global contexts into features of each start/end position for biaffine-based localization. The local contexts from the adjacent frames help distinguish the visually similar appearance, and the global contexts from the entire video contribute to reasoning the temporal relation. Besides, we also develop a multi-modal self-attention module to provide fine-grained query-guided video representation for this biaffine strategy. Extensive experiments show that our CBLN significantly outperforms state-of-the-arts on three public datasets (ActivityNet Captions, TACoS, and Charades-STA), demonstrating the effectiveness of the proposed localization framework.
updated: Mon Mar 22 2021 03:13:05 GMT+0000 (UTC)
published: Mon Mar 22 2021 03:13:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト