arXiv reaDer
ビデオ認識のためにシーケンスを1つの有益なフレームに凝縮する
Condensing a Sequence to One Informative Frame for Video Recognition
ビデオは、動きの大きな変化ときめ細かい視覚的詳細の豊富なコンテンツのために複雑です。このような情報集約型メディアから有用な情報を抽象化するには、徹底的なコンピューティングリソースが必要です。この論文では、最初にビデオシーケンスを有益な「フレーム」に凝縮し、次に合成フレームで既製の画像認識システムを活用する2段階の代替案を研究します。有効な質問は、「有用な情報」を定義し、それをビデオシーケンスから1つの合成フレームに抽出する方法です。このホワイトペーパーでは、外観の再構築、ビデオの分類、モーションエスティメーション、および2つの正規化機能、つまり敵対的学習、色の一貫性という3つの客観的なタスクを組み込んだ新しい情報フレームシンセシス(IFS)アーキテクチャを紹介します。各タスクは合成フレームに1つの能力を備え、各正則化はその視覚的品質を向上させます。これらにより、フレームシンセシスをエンドツーエンドで共同学習することにより、生成されたフレームは、ビデオ分析に役立つ必要な時空間情報をカプセル化することが期待されます。大規模なKineticsデータセットで広範な実験が行われます。ビデオシーケンスを単一の画像にマッピングするベースライン方法と比較すると、IFSは優れたパフォーマンスを示します。さらに注目すべきことに、IFSは、画像ベースの2Dネットワークとクリップベースの3Dネットワークで明らかな改善を一貫して示しており、より少ない計算コストで最先端の方法と同等のパフォーマンスを実現しています。
Video is complex due to large variations in motion and rich content in fine-grained visual details. Abstracting useful information from such information-intensive media requires exhaustive computing resources. This paper studies a two-step alternative that first condenses the video sequence to an informative "frame" and then exploits off-the-shelf image recognition system on the synthetic frame. A valid question is how to define "useful information" and then distill it from a video sequence down to one synthetic frame. This paper presents a novel Informative Frame Synthesis (IFS) architecture that incorporates three objective tasks, i.e., appearance reconstruction, video categorization, motion estimation, and two regularizers, i.e., adversarial learning, color consistency. Each task equips the synthetic frame with one ability, while each regularizer enhances its visual quality. With these, by jointly learning the frame synthesis in an end-to-end manner, the generated frame is expected to encapsulate the required spatio-temporal information useful for video analysis. Extensive experiments are conducted on the large-scale Kinetics dataset. When comparing to baseline methods that map video sequence to a single image, IFS shows superior performance. More remarkably, IFS consistently demonstrates evident improvements on image-based 2D networks and clip-based 3D networks, and achieves comparable performance with the state-of-the-art methods with less computational cost.
updated: Tue Jan 11 2022 16:13:43 GMT+0000 (UTC)
published: Tue Jan 11 2022 16:13:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト