深層学習モデルは、人間の脳のように機能することが知られています。それらの機能メカニズムのために、それらは人間の知性を必要とするタスクを達成するために頻繁に利用されます。ビデオ監視用のマルチターゲット追跡(MTT)は、重要でやりがいのあるタスクの1つであり、さまざまな分野での潜在的なアプリケーションにより、研究者の注目を集めています。マルチターゲット追跡タスクでは、各フレームでオブジェクトを個別に配置する必要があります。これは、オブジェクトの外観が即座に変化し、オブジェクトが極端にオクルージョンされるため、依然として大きな課題です。それに加えて、マルチターゲット追跡フレームワークでは、ターゲットの検出、軌道の推定、フレーム間の関連付け、再識別など、複数のタスクを実行する必要があります。さまざまな方法が提案されており、特定の問題のコンテキストで問題を制約するためにいくつかの仮定が行われています。この論文では、深層学習の表現力を活用する最先端のMTTモデルについて概説します。
Deep learning models are known to function like the human brain. Due to their functional mechanism, they are frequently utilized to accomplish tasks that require human intelligence. Multi-target tracking (MTT) for video surveillance is one of the important and challenging tasks, which has attracted the researcher's attention due to its potential applications in various domains. Multi-target tracking tasks require locating the objects individually in each frame, which remains a huge challenge as there are immediate changes in appearances and extreme occlusions of objects. In addition to that, the Multitarget tracking framework requires multiple tasks to perform i.e. target detection, estimating trajectory, associations between frame, and re-identification. Various methods have been suggested, and some assumptions are made to constrain the problem in the context of a particular problem. In this paper, the state-of-the-art MTT models, which leverage from deep learning representational power are reviewed.