リアルタイム ビデオで複数のオブジェクトのアイデンティティを維持することは、すべてのフレームで検出器を実行することが常に実行可能であるとは限らないため、困難な作業です。したがって、動き推定システムがよく使用されますが、ターゲットの数にうまく対応できないか、意味情報が限られている特徴を生成します。前述の問題を解決し、何十もの任意のオブジェクトをリアルタイムで追跡できるようにするために、SiamMOTION を提案します。 SiamMOTION には、アテンション メカニズムを通じて高品質の機能を生成する新しい提案エンジンと、慣性モジュールによって供給され、機能ピラミッド ネットワークによって強化された関心領域エクストラクタが含まれています。最後に、抽出されたテンソルは、模範と検索領域のペアを効率的に照合する比較ヘッドに入り、ペアワイズ深度領域提案ネットワークとマルチオブジェクト ペナルティ モジュールを介して品質予測を生成します。 SiamMOTION は 5 つの公開ベンチマークで検証されており、現在の最先端のトラッカーに対して優れたパフォーマンスを達成しています。コードは https://github.com/lorenzovaquero/SiamMOTION で入手できます。
Maintaining the identity of multiple objects in real-time video is a challenging task, as it is not always feasible to run a detector on every frame. Thus, motion estimation systems are often employed, which either do not scale well with the number of targets or produce features with limited semantic information. To solve the aforementioned problems and allow the tracking of dozens of arbitrary objects in real-time, we propose SiamMOTION. SiamMOTION includes a novel proposal engine that produces quality features through an attention mechanism and a region-of-interest extractor fed by an inertia module and powered by a feature pyramid network. Finally, the extracted tensors enter a comparison head that efficiently matches pairs of exemplars and search areas, generating quality predictions via a pairwise depthwise region proposal network and a multi-object penalization module. SiamMOTION has been validated on five public benchmarks, achieving leading performance against current state-of-the-art trackers. Code available at: https://github.com/lorenzovaquero/SiamMOTION