arXiv reaDer
MOTS R-CNN:マルチオブジェクトトラッキングのコサインマージントリプレット損失
MOTS R-CNN: Cosine-margin-triplet loss for multi-object tracking
マルチオブジェクト追跡の中心的なタスクの1つは、オブジェクトの意味的類似性と一致する距離メトリックを学習することです。識別的特徴学習を促進する適切な損失関数の設計は、ディープニューラルネットワークベースのメトリック学習における最も重要な課題の1つです。大幅な進歩にもかかわらず、収束が遅く、既存の対照的で三重項損失に基づく深い計量学習法の局所最適が不十分であるため、より良い解決策が必要です。本論文では、コサイン距離の観点から対照損失関数とトリプレット損失関数の両方を再定式化することにより、コサインマージンコントラスト(CMC)損失とコサインマージントリプレット(CMT)損失を提案します。コサイン損失として提案された再定式化は、学習された特徴を超球に分布させる特徴の正規化によって達成されます。次に、特に追跡パフォーマンスの向上を目的とした、共同マルチオブジェクト追跡およびセグメンテーションのためのMOTSR-CNNフレームワークを提案します。具体的には、追跡問題は、提案された損失関数に基づく深いメトリック学習を通じて対処されます。多層特徴集約スキームを使用して、モデルをオブジェクトのスケール変動およびオクルージョンに対してロバストにすることにより、スケール不変の追跡を提案します。 MOTS R-CNNは、KITTIMOTSデータセットで最先端の追跡パフォーマンスを実現します。 MOTS R-CNNは、Track R-CNNと比較して、車と歩行者のID切り替えをそれぞれ62%と61%削減することを示しています。
One of the central tasks of multi-object tracking involves learning a distance metric that is consistent with the semantic similarities of objects. The design of an appropriate loss function that encourages discriminative feature learning is among the most crucial challenges in deep neural network-based metric learning. Despite significant progress, slow convergence and a poor local optimum of the existing contrastive and triplet loss based deep metric learning methods necessitates a better solution. In this paper, we propose cosine-margin-contrastive (CMC) and cosine-margin-triplet (CMT) loss by reformulating both contrastive and triplet loss functions from the perspective of cosine distance. The proposed reformulation as a cosine loss is achieved by feature normalization which distributes the learned features on a hypersphere. We then propose the MOTS R-CNN framework for joint multi-object tracking and segmentation, particularly targeted at improving the tracking performance. Specifically, the tracking problem is addressed through deep metric learning based on the proposed loss functions. We propose a scale-invariant tracking by using a multi-layer feature aggregation scheme to make the model robust against object scale variations and occlusions. The MOTS R-CNN achieves the state-of-the-art tracking performance on the KITTI MOTS dataset. We show that the MOTS R-CNN reduces the identity switching by 62% and 61% on cars and pedestrians, respectively in comparison to Track R-CNN.
updated: Sat Feb 06 2021 05:03:29 GMT+0000 (UTC)
published: Sat Feb 06 2021 05:03:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト