arXiv reaDer
EPIC-KITCHEN Challenge 2023 への ZJU ReLER の提出: TREK-150 単一オブジェクト追跡
ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: TREK-150 Single Object Tracking
Associating Objects with Transformers (AOT) フレームワークは、ビデオ オブジェクトの追跡とセグメンテーションの幅広い複雑なシナリオで優れたパフォーマンスを示しました。この研究では、Segment Anything Model (SAM) と Alpha-Refine を使用してバウンディング ボックスを参照フレームのマスクに変換し、そのマスクを現在のフレームに伝播して、タスクをビデオ オブジェクト トラッキング (VOT) から変換します。ビデオ オブジェクト セグメンテーション (VOS) へ。さらに、複数の機能スケールで変圧器を組み込んだ AOT シリーズのバリエーションである MSDeAOT を紹介します。 MSDeAOT は、16 と 8 の 2 つの特徴スケールを使用して、前のフレームから現在のフレームにオブジェクト マスクを効率的に伝播します。設計の有効性の証拠として、EPIC-KITCHEN TREK-150 オブジェクト トラッキング チャレンジで 1 位を獲得しました。
The Associating Objects with Transformers (AOT) framework has exhibited exceptional performance in a wide range of complex scenarios for video object tracking and segmentation. In this study, we convert the bounding boxes to masks in reference frames with the help of the Segment Anything Model (SAM) and Alpha-Refine, and then propagate the masks to the current frame, transforming the task from Video Object Tracking (VOT) to video object segmentation (VOS). Furthermore, we introduce MSDeAOT, a variant of the AOT series that incorporates transformers at multiple feature scales. MSDeAOT efficiently propagates object masks from previous frames to the current frame using two feature scales of 16 and 8. As a testament to the effectiveness of our design, we achieved the 1st place in the EPIC-KITCHENS TREK-150 Object Tracking Challenge.
updated: Wed Jul 05 2023 03:50:58 GMT+0000 (UTC)
published: Wed Jul 05 2023 03:50:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト