arXiv reaDer
一時的なビデオ接地のための位置認識位置回帰ネットワーク
Position-aware Location Regression Network for Temporal Video Grounding
ビデオ監視の基礎を成功させる秘訣は、重要な俳優やオブジェクトに対応するセマンティックフレーズを理解することです。従来の方法では、フレーズの包括的なコンテキストが無視されるか、複数のフレーズに対して大量の計算が必要になります。 1つのセマンティックフレーズのみで包括的なコンテキストを理解するために、クエリとビデオの位置認識機能を活用する位置認識位置回帰ネットワーク(PLRN)を提案します。具体的には、PLRNは最初に、単語とビデオセグメントの位置情報を使用して、ビデオとクエリの両方をエンコードします。次に、エンコードされたクエリからセマンティックフレーズの特徴が注意深く抽出されます。セマンティックフレーズ機能とエンコードされたビデオは、ローカルおよびグローバルコンテキストを反映することにより、マージされ、コンテキスト認識機能になります。最後に、PLRNは、接地境界の開始、終了、中心、および幅の値を予測します。私たちの実験は、PLRNがより少ない計算時間とメモリで既存の方法よりも競争力のあるパフォーマンスを達成することを示しています。
The key to successful grounding for video surveillance is to understand a semantic phrase corresponding to important actors and objects. Conventional methods ignore comprehensive contexts for the phrase or require heavy computation for multiple phrases. To understand comprehensive contexts with only one semantic phrase, we propose Position-aware Location Regression Network (PLRN) which exploits position-aware features of a query and a video. Specifically, PLRN first encodes both the video and query using positional information of words and video segments. Then, a semantic phrase feature is extracted from an encoded query with attention. The semantic phrase feature and encoded video are merged and made into a context-aware feature by reflecting local and global contexts. Finally, PLRN predicts start, end, center, and width values of a grounding boundary. Our experiments show that PLRN achieves competitive performance over existing methods with less computation time and memory.
updated: Tue Apr 12 2022 03:14:16 GMT+0000 (UTC)
published: Tue Apr 12 2022 03:14:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト