arXiv reaDer
孤立した手話認識における3D畳み込みネットワークでのモーションヒストリー画像の使用
Using Motion History Images with 3D Convolutional Networks in Isolated Sign Language Recognition
計算モデルを用いた手話認識は、顔、手、体などの複数のソースの同時時空間モデリングを必要とする挑戦的な問題です。この論文では、モーションヒストリーを使用してトレーニングされたモデルに基づく分離手話認識モデルを提案します。 RGBビデオフレームから生成された画像(MHI)。 RGB-MHI画像は、単一のRGB画像で各サインビデオの時空間サマリーを効果的に表します。このモデルを使用して、2つの異なるアプローチを提案します。最初のアプローチでは、3D-CNNアーキテクチャに統合されたモーションベースの空間注意モジュールとしてRGB-MHIモデルを使用します。 2番目のアプローチでは、RGB-MHIモデルの機能を、3D-CNNモデルの機能を使用したレイトフュージョン手法で直接使用します。最近リリースされた2つの大規模な孤立した手話データセット、つまりAUTSLデータセットとBosphorusSign22kデータセットに対して広範な実験を行います。私たちの実験は、RGBデータのみを使用する私たちのモデルが、マルチモーダルデータを使用する文献の最先端のモデルと競合できることを示しています。
Sign language recognition using computational models is a challenging problem that requires simultaneous spatio-temporal modeling of the multiple sources, i.e. faces, hands, body etc. In this paper, we propose an isolated sign language recognition model based on a model trained using Motion History Images (MHI) that are generated from RGB video frames. RGB-MHI images represent spatio-temporal summary of each sign video effectively in a single RGB image. We propose two different approaches using this model. In the first approach, we use RGB-MHI model as a motion-based spatial attention module integrated in a 3D-CNN architecture. In the second approach, we use RGB-MHI model features directly with a late fusion technique with the features of a 3D-CNN model. We perform extensive experiments on two recently released large-scale isolated sign language datasets, namely AUTSL and BosphorusSign22k datasets. Our experiments show that our models, which use only RGB data, can compete with the state-of-the-art models in the literature that use multi-modal data.
updated: Sun Oct 24 2021 09:25:28 GMT+0000 (UTC)
published: Sun Oct 24 2021 09:25:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト