arXiv reaDer
WebUAV-3M:ミリオンスケールのディープUAVトラッキングのパワーを明らかにするベンチマーク
WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking
この作業では、WebUAV-3Mと呼ばれる新しい百万規模の無人航空機(UAV)追跡ベンチマークを提供します。まず、インターネットから300万フレームを超える4,485本の動画を収集します。次に、効率的でスケーラブルな半自動ターゲット注釈(SATA)パイプラインが考案され、すべてのフレームで途方もないWebUAV-3Mにラベルが付けられます。私たちの知る限り、WebUAV-3Mと注釈が付けられた密集した境界ボックスは、これまでで最大のパブリックUAV追跡ベンチマークです。幅広いターゲットカテゴリをカバーする100万スケールの注釈付きベンチマークを確立することにより、UAV追跡の追跡調査への道を開くことを期待しています。さらに、外観、自然言語、音声の密接な関係を考慮して、自然言語の仕様と音声ガイドを提供することでWebUAV-3Mを充実させ、UAV追跡のための自然言語機能と音声キューの調査を奨励しています。このベンチマークを備えた私たちは、100万スケールのディープUAVトラッキングの問題を掘り下げ、ディープUAVトラッカーのトレーニングとUAVトラッキングアプローチの評価のための専用の大規模ベンチマークをコミュニティに提供することを目指しています。 WebUAV-3Mでの広範な実験は、堅牢なディープUAV追跡の改善の余地がまだ大きいことを示しています。データセット、ツールキット、およびベースラインの結果は、https://github.com/983632847/WebUAV-3Mで入手できます。
In this work, we contribute a new million-scale Unmanned Aerial Vehicle (UAV) tracking benchmark, called WebUAV-3M. Firstly, we collect 4,485 videos with more than 3M frames from the Internet. Then, an efficient and scalable Semi-Automatic Target Annotation (SATA) pipeline is devised to label the tremendous WebUAV-3M in every frame. To the best of our knowledge, the densely bounding box annotated WebUAV-3M is by far the largest public UAV tracking benchmark. We expect to pave the way for the follow-up study in the UAV tracking by establishing a million-scale annotated benchmark covering a wide range of target categories. Moreover, considering the close connections among visual appearance, natural language and audio, we enrich WebUAV-3M by providing natural language specification and audio description, encouraging the exploration of natural language features and audio cues for UAV tracking. Equipped with this benchmark, we delve into million-scale deep UAV tracking problems, aiming to provide the community with a dedicated large-scale benchmark for training deep UAV trackers and evaluating UAV tracking approaches. Extensive experiments on WebUAV-3M demonstrate that there is still a big room for robust deep UAV tracking improvements. The dataset, toolkits and baseline results will be available at https://github.com/983632847/WebUAV-3M.
updated: Wed Jan 19 2022 05:39:42 GMT+0000 (UTC)
published: Wed Jan 19 2022 05:39:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト