ビデオ内の一般的なオブジェクト(人、動物、車など)、テキスト、ロゴの自動検出と追跡は、多くのビデオ理解タスク、および通常は必要に応じたリアルタイム処理に不可欠です。オブジェクト、テキスト、ブランドロゴをリアルタイムで自動的に検出および追跡できる効率的で堅牢なアルゴリズムであるOmniTrackを提案します。強力な深層学習ベースのオブジェクト検出器(YoloV3)と高品質のオプティカルフローメソッドを組み合わせています。参照YoloV3 C ++実装に基づいて、説明するいくつかの重要なパフォーマンス最適化を行いました。テキストとロゴを組み合わせた検出器のトレーニング手順の主な手順を示します。次に、前処理、特徴計算、予測、マッチング、更新の各フェーズで構成されるOmniTrackアルゴリズムについて説明します。オブジェクトの検出やオプティカルフローの計算を非同期で行うなど、いくつかのパフォーマンス最適化も実装されています。実験では、Quadro RTX 5000 GPUを搭載したPC上で、提案されたアルゴリズムが標準解像度($ 720x576 $)のビデオに対してリアルタイムで実行されることが示されています。
The automatic detection and tracking of general objects (like persons, animals or cars), text and logos in a video is crucial for many video understanding tasks, and usually real-time processing as required. We propose OmniTrack, an efficient and robust algorithm which is able to automatically detect and track objects, text as well as brand logos in real-time. It combines a powerful deep learning based object detector (YoloV3) with high-quality optical flow methods. Based on the reference YoloV3 C++ implementation, we did some important performance optimizations which will be described. The major steps in the training procedure for the combined detector for text and logo will be presented. We will describe then the OmniTrack algorithm, consisting of the phases preprocessing, feature calculation, prediction, matching and update. Several performance optimizations have been implemented there as well, like doing the object detection and optical flow calculation asynchronously. Experiments show that the proposed algorithm runs in real-time for standard definition ($720x576$) video on a PC with a Quadro RTX 5000 GPU.