arXiv reaDer
3DCNNのグローバルローカルアテンションを使用した弱教師ありアクションローカリゼーションとアクション認識
Weakly-Supervised Action Localization and Action Recognition using Global-Local Attention of 3D CNN
3D畳み込みニューラルネットワーク(3D CNN)は、ビデオシーケンスなどの3Dデータに関する空間的および時間的情報をキャプチャします。ただし、畳み込みとプーリングのメカニズムにより、情報の損失は避けられないようです。 3D CNNの視覚的な説明と分類を改善するために、2つのアプローチを提案します。 i)トレーニングされた3DResNextネットワークを使用してレイヤーごとのグローバルからローカル(グローバル-ローカル)の離散勾配を集約し、ii)アクション認識の精度を向上させるために注意ゲーティングネットワークを実装します。提案されたアプローチは、視覚的帰属、弱く監視されたアクションのローカリゼーション、およびアクション認識を介して、3DCNNでグローバルローカルアテンションと呼ばれるすべてのレイヤーの有用性を示すことを目的としています。まず、3DResNextがトレーニングされ、最大予測クラスに関するバックプロパゲーションを使用してアクション分類に適用されます。次に、すべてのレイヤーのグラデーションとアクティベーションがアップサンプリングされます。後で、集約を使用してより微妙な注意を生成します。これは、予測されたクラスの入力ビデオの最も重要な部分を示します。最終的なローカリゼーションには、最終的な注意の輪郭しきい値を使用します。 3DCamを介したきめ細かい視覚的説明を使用して、トリミングされたビデオの空間的および時間的アクションのローカリゼーションを評価します。実験結果は、提案されたアプローチが有益な視覚的説明と識別的注意を生み出すことを示しています。さらに、各レイヤーの注意ゲーティングによる行動認識は、ベースラインモデルよりも優れた分類結果を生成します。
3D Convolutional Neural Network (3D CNN) captures spatial and temporal information on 3D data such as video sequences. However, due to the convolution and pooling mechanism, the information loss seems unavoidable. To improve the visual explanations and classification in 3D CNN, we propose two approaches; i) aggregate layer-wise global to local (global-local) discrete gradients using trained 3DResNext network, and ii) implement attention gating network to improve the accuracy of the action recognition. The proposed approach intends to show the usefulness of every layer termed as global-local attention in 3D CNN via visual attribution, weakly-supervised action localization, and action recognition. Firstly, the 3DResNext is trained and applied for action classification using backpropagation concerning the maximum predicted class. The gradients and activations of every layer are then up-sampled. Later, aggregation is used to produce more nuanced attention, which points out the most critical part of the predicted class's input videos. We use contour thresholding of final attention for final localization. We evaluate spatial and temporal action localization in trimmed videos using fine-grained visual explanation via 3DCam. Experimental results show that the proposed approach produces informative visual explanations and discriminative attention. Furthermore, the action recognition via attention gating on each layer produces better classification results than the baseline model.
updated: Tue Aug 16 2022 06:57:11 GMT+0000 (UTC)
published: Thu Dec 17 2020 12:29:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト