arXiv reaDer
連続手話認識のための視覚的整列制約
Visual Alignment Constraint for Continuous Sign Language Recognition
視覚ベースの連続手話認識(CSLR)は、画像ストリームからセグメント化されていない手話を認識することを目的としています。過剰適合はCSLRトレーニングで最も重大な問題の1つであり、以前の研究では、反復トレーニングスキームがこの問題を部分的に解決できると同時に、トレーニング時間も長くなることが示されています。この研究では、最近のCSLR作業での反復トレーニングスキームを再検討し、過剰適合問題を解決するために特徴抽出器の十分なトレーニングが重要であることを認識しています。したがって、位置合わせ監視で特徴抽出器を強化するために、視覚的位置合わせ制約(VAC)を提案します。具体的には、提案されたVACは、2つの補助損失で構成されます。1つは視覚的特徴のみに焦点を当て、もう1つは特徴抽出器と位置合わせモジュール間の予測位置合わせを強制します。さらに、特徴抽出器とアライメントモジュール間の予測の不一致を測定することにより、過剰適合を反映する2つのメトリックを提案します。 2つの挑戦的なCSLRデータセットの実験結果は、提案されたVACがCSLRネットワークをエンドツーエンドでトレーニング可能にし、競争力のあるパフォーマンスを実現することを示しています。
Vision-based Continuous Sign Language Recognition (CSLR) aims to recognize unsegmented signs from image streams. Overfitting is one of the most critical problems in CSLR training, and previous works show that the iterative training scheme can partially solve this problem while also costing more training time. In this study, we revisit the iterative training scheme in recent CSLR works and realize that sufficient training of the feature extractor is critical to solving the overfitting problem. Therefore, we propose a Visual Alignment Constraint (VAC) to enhance the feature extractor with alignment supervision. Specifically, the proposed VAC comprises two auxiliary losses: one focuses on visual features only, and the other enforces prediction alignment between the feature extractor and the alignment module. Moreover, we propose two metrics to reflect overfitting by measuring the prediction inconsistency between the feature extractor and the alignment module. Experimental results on two challenging CSLR datasets show that the proposed VAC makes CSLR networks end-to-end trainable and achieves competitive performance.
updated: Wed Aug 18 2021 09:25:06 GMT+0000 (UTC)
published: Tue Apr 06 2021 07:24:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト