この論文では、効果的な結論を得るために行動認識を現実世界の制約に合わせることを目的として、リアルタイムの行動認識のための 3 ストリーム アルゴリズムと手洗いビデオの新しいデータセットを提示します。 Raspberry Pi などの低電力システムでもリアルタイムで正確かつ効率的に動作する 3 ストリーム フュージョン アルゴリズムが提案されています。提案されたアルゴリズムの基礎となるのは、効率的なアーキテクチャを使用しながらビデオ内のオブジェクトの情報だけでなく、空間情報と時間情報の両方を組み込むことと、リアルタイムで称賛に値する結果を達成するためのオプティカル フロー計算です。このアルゴリズムによって達成された結果は、UCF-101 と HMDB-51 データセットでベンチマークされ、それぞれ 92.7% と 64.9% の精度を達成しています。重要な点は、人間の目でも難しい、非常に類似した動作間の複雑な違いを学習できるという点で、アルゴリズムが斬新であることです。さらに、非常に類似した、または詳細なアクションを認識するためのデータセットの数が不足していることに気づき、このペーパーでは、一般に公開されている新しいデータセットである手洗いデータセットも紹介します。将来の粒状行動認識タスク。
In this paper we present a three-stream algorithm for real-time action recognition and a new dataset of handwash videos, with the intent of aligning action recognition with real-world constraints to yield effective conclusions. A three-stream fusion algorithm is proposed, which runs both accurately and efficiently, in real-time even on low-powered systems such as a Raspberry Pi. The cornerstone of the proposed algorithm is the incorporation of both spatial and temporal information, as well as the information of the objects in a video while using an efficient architecture, and Optical Flow computation to achieve commendable results in real-time. The results achieved by this algorithm are benchmarked on the UCF-101 as well as the HMDB-51 datasets, achieving an accuracy of 92.7% and 64.9% respectively. An important point to note is that the algorithm is novel in the aspect that it is also able to learn the intricate differences between extremely similar actions, which would be difficult even for the human eye. Additionally, noticing a dearth in the number of datasets for the recognition of very similar or fine-grained actions, this paper also introduces a new dataset that is made publicly available, the Hand Wash Dataset with the intent of introducing a new benchmark for fine-grained action recognition tasks in the future.