ソナービデオで魚を検出、追跡、およびカウントするための大規模なデータセットであるCaltech Fish Counting Dataset(CFC)を紹介します。ソナービデオは、低信号対雑音比のコンピュータービジョンアプリケーションを推進し、複数オブジェクト追跡(MOT)およびカウントにおけるドメインの一般化に取り組むための豊富なデータソースとして識別されます。都市の人や車のビデオに主に制限されている既存のMOTおよびカウントデータセットと比較すると、CFCは、ターゲットを簡単に解決できず、外観機能をターゲットの再識別に簡単に活用できない自然界のドメインから供給されます。 CFCを使用すると、7つの異なるソナーカメラから供給された1,500を超えるビデオに50万を超える注釈が付けられ、研究者はMOTとカウントアルゴリズムをトレーニングし、目に見えないテスト場所での一般化パフォーマンスを評価できます。広範なベースライン実験を実施し、MOTの一般化とカウントにおける最先端技術を進歩させるための重要な課題と機会を特定します。
We present the Caltech Fish Counting Dataset (CFC), a large-scale dataset for detecting, tracking, and counting fish in sonar videos. We identify sonar videos as a rich source of data for advancing low signal-to-noise computer vision applications and tackling domain generalization in multiple-object tracking (MOT) and counting. In comparison to existing MOT and counting datasets, which are largely restricted to videos of people and vehicles in cities, CFC is sourced from a natural-world domain where targets are not easily resolvable and appearance features cannot be easily leveraged for target re-identification. With over half a million annotations in over 1,500 videos sourced from seven different sonar cameras, CFC allows researchers to train MOT and counting algorithms and evaluate generalization performance at unseen test locations. We perform extensive baseline experiments and identify key challenges and opportunities for advancing the state of the art in generalization in MOT and counting.