近年、ディープラーニング(DL)に基づく人工知能(AI)が世界的に大きな関心を呼んでいます。 DLは今日広く使用されており、さまざまな興味深い分野に拡大しています。コンピュータサイエンスと工学アプリケーションを組み合わせたスマートシティシステムの研究など、科目間研究でより一般的になりつつあります。人間の行動の検出は、これらの分野の1つです。人間の行動の検出は、コンピューティングの速度と精度に関して厳しい要件があるため、興味深い課題です。高精度のリアルタイムオブジェクト追跡も重要な課題と見なされます。このホワイトペーパーでは、リアルタイムオブジェクト検出の最先端ツールと考えられているYOLO検出ネットワークと、モーションベクトルおよびコヨーテ最適化アルゴリズム(COA)を統合して、リアルタイムの人間の行動のローカリゼーションおよび追跡システムを構築します。 。提案されたシステムは、圧縮されたビデオストリームからモーション情報を抽出し、オブジェクト検出器を使用してRGBフレームから外観情報を抽出することから始まります。次に、2つのストリーム間の融合ステップが実行され、結果が提案されたアクション追跡モデルに送られます。 COAは、その精度と高速な収束により、オブジェクト追跡で使用されます。提案モデルの基本的な基盤は、圧縮ビデオビットストリームに既に存在し、他の一般的なモーション抽出方法と比較して計算リソースを大量に消費することなく、ターゲットアクションのローカリゼーションを改善するのに十分な情報を提供するモーションベクトルの利用ですオプティカルフローなどの情報。この利点により、提案されたアプローチは、モノのインターネット(IoT)システムなどの計算リソースが限られている困難な環境に実装できます。
In recent years, artificial intelligence (AI) based on deep learning (DL) has sparked tremendous global interest. DL is widely used today and has expanded into various interesting areas. It is becoming more popular in cross-subject research, such as studies of smart city systems, which combine computer science with engineering applications. Human action detection is one of these areas. Human action detection is an interesting challenge due to its stringent requirements in terms of computing speed and accuracy. High-accuracy real-time object tracking is also considered a significant challenge. This paper integrates the YOLO detection network, which is considered a state-of-the-art tool for real-time object detection, with motion vectors and the Coyote Optimization Algorithm (COA) to construct a real-time human action localization and tracking system. The proposed system starts with the extraction of motion information from a compressed video stream and the extraction of appearance information from RGB frames using an object detector. Then, a fusion step between the two streams is performed, and the results are fed into the proposed action tracking model. The COA is used in object tracking due to its accuracy and fast convergence. The basic foundation of the proposed model is the utilization of motion vectors, which already exist in a compressed video bit stream and provide sufficient information to improve the localization of the target action without requiring high consumption of computational resources compared with other popular methods of extracting motion information, such as optical flows. This advantage allows the proposed approach to be implemented in challenging environments where the computational resources are limited, such as Internet of Things (IoT) systems.