arXiv reaDer
時空間ビデオ接地のためのガウスカーネルベースのクロスモーダルネットワーク
Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video Grounding
時空間ビデオグラウンディング(STVG)は、自然言語クエリに従って意味的に関心のあるオブジェクトの時空間チューブをローカライズすることを目的とした挑戦的なタスクです。以前の作品のほとんどは、Faster R-CNNによって抽出されたアンカーボックスに大きく依存しているだけでなく、ビデオを一連の個別のフレームと見なしているため、時間的モデリングが欠けています。代わりに、この論文では、ガウスカーネルベースのクロスモーダルネットワーク(GKCMN)と呼ばれるSTVGのアンカーフリーフレームワークを最初に提案しました。具体的には、各ビデオフレームの学習済みガウスカーネルベースのヒートマップを利用して、クエリ関連のオブジェクトを特定します。直列接続と並列接続の混合ネットワークがさらに開発され、フレーム間の空間的関係と時間的関係の両方を活用して、接地を改善しています。 VidSTGデータセットの実験結果は、提案されたGKCMNの有効性を示しています。
Spatial-Temporal Video Grounding (STVG) is a challenging task which aims to localize the spatio-temporal tube of the interested object semantically according to a natural language query. Most previous works not only severely rely on the anchor boxes extracted by Faster R-CNN, but also simply regard the video as a series of individual frames, thus lacking their temporal modeling. Instead, in this paper, we are the first to propose an anchor-free framework for STVG, called Gaussian Kernel-based Cross Modal Network (GKCMN). Specifically, we utilize the learned Gaussian Kernel-based heatmaps of each video frame to locate the query-related object. A mixed serial and parallel connection network is further developed to leverage both spatial and temporal relations among frames for better grounding. Experimental results on VidSTG dataset demonstrate the effectiveness of our proposed GKCMN.
updated: Sat Jul 02 2022 05:59:28 GMT+0000 (UTC)
published: Sat Jul 02 2022 05:59:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト