検出による追跡は、複数オブジェクト追跡の問題を解決する一般的なアプローチです。このホワイトペーパーでは、深い類似性メトリックを学習することで、複数オブジェクト追跡ベンチマークでの歩行者追跡の3つの重要な側面をどのように改善できるかを示します。畳み込みニューラルネットワークをトレーニングして、大規模な人物の再識別データセットでシャム構成の埋め込み関数を学習します。オフラインでトレーニングされた埋め込みネットワークは追跡の定式化に統合され、リアルタイムのパフォーマンスを維持しながらパフォーマンスを改善します。提案されたトラッカーは、この外観情報を使用して、検出が強い間、外観メトリックを保存します。IDスイッチの防止、オクルージョンによるトラックレットの関連付け、検出器の信頼性が低い新しい検出の提案。この方法は、特にオンラインのリアルタイムアプローチの中で、評価において競争力のある結果を達成します。ディープアピアランスメトリックの3つの用途それぞれの影響を示すアブレーション研究を提示します。
Tracking by detection is a common approach to solving the Multiple Object Tracking problem. In this paper we show how learning a deep similarity metric can improve three key aspects of pedestrian tracking on a multiple object tracking benchmark. We train a convolutional neural network to learn an embedding function in a Siamese configuration on a large person re-identification dataset. The offline-trained embedding network is integrated in to the tracking formulation to improve performance while retaining real-time performance. The proposed tracker stores appearance metrics while detections are strong, using this appearance information to: prevent ID switches, associate tracklets through occlusion, and propose new detections where detector confidence is low. This method achieves competitive results in evaluation, especially among online, real-time approaches. We present an ablative study showing the impact of each of the three uses of our deep appearance metric.