arXiv reaDer
Search-Map-Search: アクション認識のためのフレーム選択パラダイム
Search-Map-Search: A Frame Selection Paradigm for Action Recognition
ビデオ理解タスクにおける深層学習の成功にもかかわらず、ビデオ内のすべてのフレームの処理は計算コストが高く、多くの場合、リアルタイム アプリケーションでは不要です。フレーム選択は、モデルがビデオ コンテンツをよりよく理解できるように、最も有益で代表的なフレームを抽出することを目的としています。既存のフレーム選択方法は、フレーム間の相互作用を考慮せずに、フレームごとの重要度予測に基づいてフレームを個別にサンプリングするか、強化学習エージェントを採用して代表的なフレームを連続して見つけるかのいずれかです。これは、トレーニングにコストがかかり、潜在的な安定性の問題につながる可能性があります。既存の方法の制限を克服するために、ヒューリスティック検索と教師あり学習の利点を組み合わせて、ビデオからフレームの最適な組み合わせを 1 つのエンティティとして選択する検索-マップ-検索学習パラダイムを提案します。検索と学習を組み合わせることにより、提案された方法は、低い推論オーバーヘッドを被りながら、フレームの相互作用をより適切にキャプチャできます。具体的には、最初に、各トレーニングビデオで実行される階層的検索方法を提案して、下流タスクで最小のエラーを持つフレームの最適な組み合わせを検索します。次に、ビデオのフレームをそのターゲットの最適なフレームの組み合わせの表現にマッピングするために、特徴マッピング関数が学習されます。推論中、未見のビデオに対して別の検索が実行され、投影された特徴表現に近い特徴表現を持つフレームの組み合わせが選択されます。いくつかのアクション認識ベンチマークに基づく広範な実験により、フレーム選択方法がアクション認識モデルのパフォーマンスを効果的に改善し、多くの競合ベースラインよりも大幅に優れていることが実証されています。
Despite the success of deep learning in video understanding tasks, processing every frame in a video is computationally expensive and often unnecessary in real-time applications. Frame selection aims to extract the most informative and representative frames to help a model better understand video content. Existing frame selection methods either individually sample frames based on per-frame importance prediction, without considering interaction among frames, or adopt reinforcement learning agents to find representative frames in succession, which are costly to train and may lead to potential stability issues. To overcome the limitations of existing methods, we propose a Search-Map-Search learning paradigm which combines the advantages of heuristic search and supervised learning to select the best combination of frames from a video as one entity. By combining search with learning, the proposed method can better capture frame interactions while incurring a low inference overhead. Specifically, we first propose a hierarchical search method conducted on each training video to search for the optimal combination of frames with the lowest error on the downstream task. A feature mapping function is then learned to map the frames of a video to the representation of its target optimal frame combination. During inference, another search is performed on an unseen video to select a combination of frames whose feature representation is close to the projected feature representation. Extensive experiments based on several action recognition benchmarks demonstrate that our frame selection method effectively improves performance of action recognition models, and significantly outperforms a number of competitive baselines.
updated: Thu Apr 20 2023 13:49:53 GMT+0000 (UTC)
published: Thu Apr 20 2023 13:49:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト