arXiv reaDer
クロスレゾリューション知識蒸留に基づく連続手話認識
Continuous sign language recognition based on cross-resolution knowledge distillation
継続的手話認識 (CSLR) 研究の目標は、CSLR モデルを実生活でのコミュニケーション ツールとして適用することであり、モデルのリアルタイム要件は重要です。この論文では、クロスレゾリューション知識の蒸留を通じてモデルのリアルタイム問題に対処します。私たちの研究では、学生ネットワークと教師ネットワークの出力間でフレームレベルの特徴スケールを一貫した状態に保つ方が、特徴抽出のためにフレームレベルの特徴サイズを回復するよりも優れていることがわかりました。この発見に基づいて、出力フレームレベルの特徴を教師ネットワークによる出力と同じスケールに保つ新しいフレームレベルの特徴抽出器を提案します。さらに、以前の研究で提案されたTSCM + 2Dハイブリッド畳み込みと組み合わせて、新しい軽量のエンドツーエンドCSLRネットワーク-低解像度入力ネット(LRINet)を形成しました。次に、クロスレゾリューション知識蒸留法と従来のナレッジ蒸留法を組み合わせて、クロスレゾリューション知識蒸留法 (CRKD) に基づく CSLR モデルを形成するために使用されます。 CRKD は高解像度フレームをトレーニング用の教師ネットワークへの入力として使用し、トレーニング後に重みをロックしてから、低解像度フレームを学生ネットワーク LRINet への入力として使用して、フレーム レベルの特徴と分類特徴の知識抽出をそれぞれ実行します。 2 つの大規模な連続手話データセットでの実験により、CRKD の有効性が証明されました。高解像度データを入力としたモデルと比較して、モデルの精度を確保しつつ、同じ実験条件でモデルの計算量、パラメータ量、推論時間を大幅に削減し、比較で非常に優れた結果を出しています。他の高度な方法で。
The goal of continuous sign language recognition(CSLR) research is to apply CSLR models as a communication tool in real life, and the real-time requirement of the models is important. In this paper, we address the model real-time problem through cross-resolution knowledge distillation. In our study, we found that keeping the frame-level feature scales consistent between the output of the student network and the teacher network is better than recovering the frame-level feature sizes for feature distillation. Based on this finding, we propose a new frame-level feature extractor that keeps the output frame-level features at the same scale as the output of by the teacher network. We further combined with the TSCM+2D hybrid convolution proposed in our previous study to form a new lightweight end-to-end CSLR network-Low resolution input net(LRINet). It is then used to combine cross-resolution knowledge distillation and traditional knowledge distillation methods to form a CSLR model based on cross-resolution knowledge distillation (CRKD). The CRKD uses high-resolution frames as input to the teacher network for training, locks the weights after training, and then uses low-resolution frames as input to the student network LRINet to perform knowledge distillation on frame-level features and classification features respectively. Experiments on two large-scale continuous sign language datasets have proved the effectiveness of CRKD. Compared with the model with high-resolution data as input, the calculation amount, parameter amount and inference time of the model have been significantly reduced under the same experimental conditions, while ensuring the accuracy of the model, and has achieved very competitive results in comparison with other advanced methods.
updated: Mon Mar 13 2023 02:33:34 GMT+0000 (UTC)
published: Mon Mar 13 2023 02:33:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト