arXiv reaDer
SpotEM: エピソード記憶の効率的なビデオ検索
SpotEM: Efficient Video Search for Episodic Memory
エピソード記憶 (EM) の目標は、長い自己中心的なビデオを検索して、自然言語の質問 (例: 「財布をどこに忘れたか?」) に答えることです。既存の EM 手法では、高価な固定長クリップの特徴を徹底的に抽出してビデオのあらゆる場所を調べて答えを探しますが、数時間、場合によっては数日に及ぶ長時間のウェアラブル カメラ ビデオの場合は不可能です。私たちは、良好な精度を維持しながら特定の EM 手法の効率を達成するアプローチである SpotEM を提案します。 SpotEM は 3 つの主要なアイデアで構成されています。1) 言語クエリに基づいて検索する可能性のあるビデオ領域を識別することを学習する新しいクリップ セレクター。 2) 部屋、オブジェクト、インタラクションのコンテキストをキャプチャし、どこを見るべきかを示唆する一連の低コストのセマンティック インデックス機能。 3) クリップ セレクターと EM モデルのエンドツーエンドの共同トレーニングから生じる最適化の問題に対処する蒸留損失。 Ego4D EM Natural Language Queries ベンチマークと 3 つの異なる EM モデルからの 200 時間以上のビデオに対する実験により、私たちのアプローチの有効性が実証されました。クリップ特徴の 10% ~ 25% のみを計算し、オリジナルの 84% ~ 97% を保持します。 EM モデルの精度。プロジェクトページ: https://vision.cs.utexas.edu/projects/spotem
The goal in episodic memory (EM) is to search a long egocentric video to answer a natural language query (e.g., "where did I leave my purse?"). Existing EM methods exhaustively extract expensive fixed-length clip features to look everywhere in the video for the answer, which is infeasible for long wearable-camera videos that span hours or even days. We propose SpotEM, an approach to achieve efficiency for a given EM method while maintaining good accuracy. SpotEM consists of three key ideas: 1) a novel clip selector that learns to identify promising video regions to search conditioned on the language query; 2) a set of low-cost semantic indexing features that capture the context of rooms, objects, and interactions that suggest where to look; and 3) distillation losses that address the optimization issues arising from end-to-end joint training of the clip selector and EM model. Our experiments on 200+ hours of video from the Ego4D EM Natural Language Queries benchmark and three different EM models demonstrate the effectiveness of our approach: computing only 10% - 25% of the clip features, we preserve 84% - 97% of the original EM model's accuracy. Project page: https://vision.cs.utexas.edu/projects/spotem
updated: Wed Jun 28 2023 00:52:49 GMT+0000 (UTC)
published: Wed Jun 28 2023 00:52:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト