arXiv reaDer
ゲルシュゴリンディスクアライメントを使用した短いビデオ要約のための高速グラフサンプリング
Fast Graph Sampling for Short Video Summarization using Gershgorin Disc Alignment
高速グラフサンプリングの最近の進歩を活用して、短いビデオをいくつかのキーフレームに効率的に要約する問題を研究します。具体的には、最初に、グラフラプラシアン行列Lで表される類似性パスグラフ(SPG)Gを作成します。ここで、隣接するフレーム間の類似性は、正のエッジの重みとしてエンコードされます。係数行列B = diag(a)+μLの最小固有値λ_{B)を最大化することは、最悪の場合の信号再構成エラーを最小化することと同等であることを示します。 GをQ個のサブグラフ{0G ^ q {1} ^ Q_q = 1に分割した後、Q個の対応する係数行列の最小のゲルシュゴリン円定理(GCT)の下限-\min_qλ^ -_ {B ^ q) -はλ_{B)の下限です。これは、各サブグラフG ^ qのλ^ -_ {B ^ q)を最大化しながら、Qサンプル(キーフレーム)を使用してGをQサブグラフに繰り返し分割する高速グラフサンプリングアルゴリズムを刺激します。実験結果は、私たちのアルゴリズムが、大幅に削減された複雑さで、最先端の方法と同等のビデオ要約パフォーマンスを達成することを示しています。
We study the problem of efficiently summarizing a short video into several keyframes, leveraging recent progress in fast graph sampling. Specifically, we first construct a similarity path graph (SPG) G, represented by graph Laplacian matrix L, where the similarities between adjacent frames are encoded as positive edge weights. We show that maximizing the smallest eigenvalue λ_{B) of a coefficient matrix B = diag(a) + μL, where a is the binary keyframe selection vector, is equivalent to minimizing a worst-case signal reconstruction error. We prove that, after partitioning G into Q sub-graphs {G^q}^Q_q=1, the smallest Gershgorin circle theorem (GCT) lower bound of Q corresponding coefficient matrices -- \min_q λ^-_{B^q) -- is a lower bound for λ_{B). This inspires a fast graph sampling algorithm to iteratively partition G into Q sub-graphs using Q samples (keyframes), while maximizing λ^-_{B^q) for each sub-graph G^q. Experimental results show that our algorithm achieves comparable video summarization performance as state-of-the-art methods, at a substantially reduced complexity.
updated: Mon Oct 25 2021 02:31:51 GMT+0000 (UTC)
published: Thu Oct 21 2021 18:43:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト