arXiv reaDer
効率的なビデオ認識のためのアクションキーポイントネットワーク
Action Keypoint Network for Efficient Video Recognition
ビデオ認識モデルの効率を向上させるには、冗長性を減らすことが重要です。効果的なアプローチは、全体的なビデオから有益なコンテンツを選択し、動的なビデオ認識方法の人気のあるファミリーを生み出すことです。ただし、既存の動的な方法は、冗長性が通常は空間的および時間的であるという現実を無視しながら、時間的または空間的選択に独立して焦点を合わせています。さらに、彼らが選択したコンテンツは通常、固定された形でトリミングされますが、有益なコンテンツの現実的な配布ははるかに多様になる可能性があります。これらの2つの洞察を基に、このペーパーでは、時間的および空間的選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案します。 AK-Netは、さまざまなフレームと位置から、任意の形状の領域に散在するいくつかの有益なポイントをアクションキーポイントのセットとして選択し、ビデオ認識をポイントクラウド分類に変換します。 AK-Netには、キーポイントの選択とポイントクラウドの分類という2つのステップがあります。まず、ビデオをベースラインネットワークに入力し、中間層から特徴マップを出力します。この特徴マップ上の各ピクセルを時空間ポイントとして表示し、自己注意を使用していくつかの有益なキーポイントを選択します。次に、AK-Netは、キーポイントを順序付けられた1Dシーケンスに配置するためのランク付け基準を考案します。その結果、AK-Netは効率に2つの利点をもたらします。キーポイント選択ステップは任意の形状内の有益なコンテンツを収集し、時空間依存性のモデリングの効率を高めます。一方、ポイントクラウド分類ステップは畳み込みカーネルを圧縮することで計算コストをさらに削減します。 。実験結果は、AK-Netがいくつかのビデオ認識ベンチマークでベースラインメソッドの効率とパフォーマンスを一貫して改善できることを示しています。
Reducing redundancy is crucial for improving the efficiency of video recognition models. An effective approach is to select informative content from the holistic video, yielding a popular family of dynamic video recognition methods. However, existing dynamic methods focus on either temporal or spatial selection independently while neglecting a reality that the redundancies are usually spatial and temporal, simultaneously. Moreover, their selected content is usually cropped with fixed shapes, while the realistic distribution of informative content can be much more diverse. With these two insights, this paper proposes to integrate temporal and spatial selection into an Action Keypoint Network (AK-Net). From different frames and positions, AK-Net selects some informative points scattered in arbitrary-shaped regions as a set of action keypoints and then transforms the video recognition into point cloud classification. AK-Net has two steps, i.e., the keypoint selection and the point cloud classification. First, it inputs the video into a baseline network and outputs a feature map from an intermediate layer. We view each pixel on this feature map as a spatial-temporal point and select some informative keypoints using self-attention. Second, AK-Net devises a ranking criterion to arrange the keypoints into an ordered 1D sequence. Consequentially, AK-Net brings two-fold benefits for efficiency: The keypoint selection step collects informative content within arbitrary shapes and increases the efficiency for modeling spatial-temporal dependencies, while the point cloud classification step further reduces the computational cost by compacting the convolutional kernels. Experimental results show that AK-Net can consistently improve the efficiency and performance of baseline methods on several video recognition benchmarks.
updated: Mon Jan 17 2022 09:35:34 GMT+0000 (UTC)
published: Mon Jan 17 2022 09:35:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト