arXiv reaDer
継続的な手話認識のための自給自足フレームワーク
Self-Sufficient Framework for Continuous Sign Language Recognition
この作業の目標は、手話認識の重要な問題に対処する連続手話認識 (CSLR) のための自給自足のフレームワークを開発することです。これらには、理解のための手、顔、口などの複雑なマルチスケール機能の必要性、およびフレームレベルの注釈の欠如が含まれます。この目的のために、(1) 追加のネットワークや注釈を必要とせずに手動と非手動の両方の機能を抽出する Divide and Focus Convolution (DFConv) と、(2) 非手動機能を伝播する Dense Pseudo-Label Refinement (DPLR) を提案します。グラウンド トゥルース グロス シーケンス ラベルと予測されたシーケンスを組み合わせることにより、とがったフレーム レベルの疑似ラベルを作成します。私たちのモデルは、大規模な CSLR ベンチマーク、PHOENIX-2014 および PHOENIX-2014-T で RGB ベースの方法の中で最先端のパフォーマンスを達成することを実証し、使用する他のアプローチと比較して、より優れた効率で同等の結果を示します。マルチモダリティまたは追加の注釈。
The goal of this work is to develop self-sufficient framework for Continuous Sign Language Recognition (CSLR) that addresses key issues of sign language recognition. These include the need for complex multi-scale features such as hands, face, and mouth for understanding, and absence of frame-level annotations. To this end, we propose (1) Divide and Focus Convolution (DFConv) which extracts both manual and non-manual features without the need for additional networks or annotations, and (2) Dense Pseudo-Label Refinement (DPLR) which propagates non-spiky frame-level pseudo-labels by combining the ground truth gloss sequence labels with the predicted sequence. We demonstrate that our model achieves state-of-the-art performance among RGB-based methods on large-scale CSLR benchmarks, PHOENIX-2014 and PHOENIX-2014-T, while showing comparable results with better efficiency when compared to other approaches that use multi-modality or extra annotations.
updated: Tue Mar 21 2023 11:42:57 GMT+0000 (UTC)
published: Tue Mar 21 2023 11:42:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト