arXiv reaDer
VS-TransGRU: 自己中心的な行動の予測のための視覚的意味論的融合によって強化された、新しいトランスフォーマー GRU ベースのフレームワーク
VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation
自己中心的な行動の予測は、一人称視点での現在および過去の観察に基づいて将来の行動を高度に予測することを目的とした挑戦的なタスクです。既存の手法のほとんどは、予測パフォーマンスを向上させるために、視覚入力とリカレント ニューラル ネットワークに基づいてモデル アーキテクチャと損失関数を改善することに重点を置いています。ただし、視覚情報のみを考慮し、単一のネットワーク アーキテクチャに依存するこれらの方法は、徐々にパフォーマンスが頭打ちになります。何が観察されたかを完全に理解し、現在の観察と将来のアクションの間の依存関係を十分に把握するために、この論文では、視覚と意味の融合が強化された、Transformer GRU ベースのアクション予測フレームワークを提案します。まず、アクション予測のパフォーマンスを向上させるために、高レベルの意味情報が初めて導入されます。クラスラベルに基づいて、または視覚的観察から直接生成された意味論的特徴を使用して、元の視覚的特徴を強化することを提案します。第二に、効果的な視覚と意味の融合モジュールが、意味上のギャップを補い、異なるモダリティの相補性を十分に活用するために提案されています。 3 番目に、並列モデルと自己回帰モデルの両方を活用するために、長期逐次モデリング用の Transformer ベースのエンコーダと、柔軟な反復デコード用の GRU ベースのデコーダを設計します。 2 つの大規模一人称視点データセット、つまり EPIC-Kitchens と EGTEA Gaze+ での広範な実験により、私たちが提案した手法の有効性が検証され、新しい最先端のパフォーマンスが達成され、以前のアプローチを大幅に上回りました。
Egocentric action anticipation is a challenging task that aims to make advanced predictions of future actions from current and historical observations in the first-person view. Most existing methods focus on improving the model architecture and loss function based on the visual input and recurrent neural network to boost the anticipation performance. However, these methods, which merely consider visual information and rely on a single network architecture, gradually reach a performance plateau. In order to fully understand what has been observed and capture the dependencies between current observations and future actions well enough, we propose a novel visual-semantic fusion enhanced and Transformer GRU-based action anticipation framework in this paper. Firstly, high-level semantic information is introduced to improve the performance of action anticipation for the first time. We propose to use the semantic features generated based on the class labels or directly from the visual observations to augment the original visual features. Secondly, an effective visual-semantic fusion module is proposed to make up for the semantic gap and fully utilize the complementarity of different modalities. Thirdly, to take advantage of both the parallel and autoregressive models, we design a Transformer based encoder for long-term sequential modeling and a GRU-based decoder for flexible iteration decoding. Extensive experiments on two large-scale first-person view datasets, i.e., EPIC-Kitchens and EGTEA Gaze+, validate the effectiveness of our proposed method, which achieves new state-of-the-art performance, outperforming previous approaches by a large margin.
updated: Sat Jul 08 2023 06:49:54 GMT+0000 (UTC)
published: Sat Jul 08 2023 06:49:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト