arXiv reaDer
産業用アセンブリにおける視覚ベースの人間の手の動作認識のためのデータセット作成の課題
Challenges of the Creation of a Dataset for Vision Based Human Hand Action Recognition in Industrial Assembly
この作品は、Industrial Hand Action Dataset V1 を提示します。これは、基本バージョンの 459,180 枚の画像と空間拡張後の 2,295,900 枚の画像を含む 12 のクラスで構成される工業用アセンブリ データセットです。テストされた他の自由に利用できるデータセットと比較して、平均以上の期間があり、さらに、産業組立ラインの技術的および法的要件を満たしています。さらに、このデータセットには、オクルージョン、ハンドオブジェクトの相互作用、および調査したデータセットでは組み合わせが見つからなかった工業用組み立てタスクのためのさまざまなきめ細かい人間の手のアクションが含まれています。記録されたグラウンド トゥルース アセンブリ クラスは、実際のユース ケースを幅広く観察した後に選択されました。トランス ドメインの最先端モデルである Gated Transformer Network が採用され、18,269,959 個のトレーニング可能なパラメーターによるハイパーパラメーター チューニングの前に 86.25% のテスト精度で証明されました。データセット。
This work presents the Industrial Hand Action Dataset V1, an industrial assembly dataset consisting of 12 classes with 459,180 images in the basic version and 2,295,900 images after spatial augmentation. Compared to other freely available datasets tested, it has an above-average duration and, in addition, meets the technical and legal requirements for industrial assembly lines. Furthermore, the dataset contains occlusions, hand-object interaction, and various fine-grained human hand actions for industrial assembly tasks that were not found in combination in examined datasets. The recorded ground truth assembly classes were selected after extensive observation of real-world use cases. A Gated Transformer Network, a state-of-the-art model from the transformer domain was adapted, and proved with a test accuracy of 86.25% before hyperparameter tuning by 18,269,959 trainable parameters, that it is possible to train sequential deep learning models with this dataset.
updated: Tue Mar 07 2023 07:57:12 GMT+0000 (UTC)
published: Tue Mar 07 2023 07:57:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト