arXiv reaDer
シングルステージ連続ジェスチャ認識のためのマルチモーダルフュージョン
Multi-modal Fusion for Single-Stage Continuous Gesture Recognition
ジェスチャ認識は、ロボット工学や人間と機械の相互作用など、実世界での無数のアプリケーションを備えた、よく研究されている研究分野です。現在のジェスチャ認識方法は、孤立したジェスチャに重点を置いており、既存の連続ジェスチャ認識方法は、検出と分類に独立したモデルが必要な2段階のアプローチによって制限され、後者のパフォーマンスは検出パフォーマンスによって制約されます。対照的に、単一のモデルを介して単一のビデオ内の複数のジェスチャを検出および分類できる、単一ステージの連続ジェスチャ認識モデルを紹介します。このアプローチは、個々のジェスチャを検出するための前処理セグメンテーション段階を必要とせずに、ジェスチャと非ジェスチャの間の自然な遷移を学習します。これを可能にするために、マルチモーダル入力から流れる重要な情報の統合をサポートするマルチモーダル融合メカニズムを導入し、任意の数のモードにスケーラブルにします。さらに、ユニモーダル機能マッピング(UFM)モデルとマルチモーダル機能マッピング(MFM)モデルを提案して、それぞれユニモーダル機能と融合マルチモーダル機能をマッピングします。パフォーマンスをさらに向上させるために、グラウンドトゥルースと予測の間のスムーズな調整を促進する中間点ベースの損失関数を提案します。可変長の入力ビデオを処理でき、2つの挑戦的なデータセット、EgoGestureとIPNハンドで最先端を凌駕する、提案されたフレームワークの有用性を示します。さらに、切除実験は、提案されたフレームワークのさまざまなコンポーネントの重要性を示しています。
Gesture recognition is a much studied research area which has myriad real-world applications including robotics and human-machine interaction. Current gesture recognition methods have heavily focused on isolated gestures, and existing continuous gesture recognition methods are limited by a two-stage approach where independent models are required for detection and classification, with the performance of the latter being constrained by detection performance. In contrast, we introduce a single-stage continuous gesture recognition model, that can detect and classify multiple gestures in a single video via a single model. This approach learns the natural transitions between gestures and non-gestures without the need for a pre-processing segmentation stage to detect individual gestures. To enable this, we introduce a multi-modal fusion mechanism to support the integration of important information that flows from multi-modal inputs, and is scalable to any number of modes. Additionally, we propose Unimodal Feature Mapping (UFM) and Multi-modal Feature Mapping (MFM) models to map uni-modal features and the fused multi-modal features respectively. To further enhance the performance we propose a mid-point based loss function that encourages smooth alignment between the ground truth and the prediction. We demonstrate the utility of our proposed framework which can handle variable-length input videos, and outperforms the state-of-the-art on two challenging datasets, EgoGesture, and IPN hand. Furthermore, ablative experiments show the importance of different components of the proposed framework.
updated: Tue Nov 10 2020 07:09:35 GMT+0000 (UTC)
published: Tue Nov 10 2020 07:09:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト