arXiv reaDer
STAR-GNN: コンテンツ ベースの検索のための時空間ビデオ表現
STAR-GNN: Spatial-Temporal Video Representation for Content-based Retrieval
STAR-GNN と呼ばれるビデオ特徴表現学習フレームワークを提案します。このフレームワークは、マルチスケール格子特徴グラフにプラグ可能なグラフ ニューラル ネットワーク コンポーネントを適用します。 STAR-GNN の本質は、時間ダイナミクスと空間コンテンツ、およびフレーム内の異なるスケールでの領域間の視覚的接続の両方を活用することです。ノードが異なる粒度の領域を表し、重み付けされたエッジが空間的リンクと時間的リンクを表す格子特徴グラフでビデオをモデル化します。コンテキスト ノードは、検索トリプレット ロスでトレーニングされたパラメーターを使用して、グラフ ニューラル ネットワークによって同時に集約されます。実験では、STAR-GNN がビデオ フレーム シーケンスに動的アテンション メカニズムを効果的に実装し、その結果、ビデオ内の動的で意味的に豊富なコンテンツが強調され、ノイズや冗長性に対して堅牢であることを示しています。実験結果は、STAR-GNN がコンテンツベースのビデオ検索で最先端のパフォーマンスを達成することを示しています。
We propose a video feature representation learning framework called STAR-GNN, which applies a pluggable graph neural network component on a multi-scale lattice feature graph. The essence of STAR-GNN is to exploit both the temporal dynamics and spatial contents as well as visual connections between regions at different scales in the frames. It models a video with a lattice feature graph in which the nodes represent regions of different granularity, with weighted edges that represent the spatial and temporal links. The contextual nodes are aggregated simultaneously by graph neural networks with parameters trained with retrieval triplet loss. In the experiments, we show that STAR-GNN effectively implements a dynamic attention mechanism on video frame sequences, resulting in the emphasis for dynamic and semantically rich content in the video, and is robust to noise and redundancies. Empirical results show that STAR-GNN achieves state-of-the-art performance for Content-Based Video Retrieval.
updated: Mon Aug 15 2022 01:47:50 GMT+0000 (UTC)
published: Mon Aug 15 2022 01:47:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト