このホワイト ペーパーでは、大規模なビデオ人物再識別 (ReID) のための ID 付きマルチビュー拡張ビデオ (MEVID) データセットを紹介します。私たちの知る限り、MEVID は最も多様なビデオ人物 ReID データセットを表しており、73 日間のウィンドウ内の 9 つの固有の日付、さまざまなカメラの視点、およびエンティティの衣服の変更にまたがる広範な屋内および屋外環境にまたがっています。具体的には、非常に大規模な MEVA 人物活動データセットからの 33 のカメラ ビューで見られる、8,092 トラックレット、平均長さ約 590 フレームから取得された 598 の衣装を着た 158 人の一意の人物のアイデンティティにラベルを付けます。他のデータセットはよりユニークなアイデンティティを持っていますが、MEVID は各個人に関するより豊富な情報セットを強調しています。たとえば、CCVID では 4 つの衣装/アイデンティティと 2 つの衣装/アイデンティティ、17 の場所にまたがる 33 の視点と MTA の 5 つのシミュレートされた場所に 6 つの視点、 1,000 万フレームに対して、LS-VID では 300 万フレームです。 MEVA ビデオ データセットに基づいているため、意図的に米国本土と人口統計学的にバランスをとったデータも継承しています。アノテーション プロセスを高速化するために、オブジェクト検出、姿勢推定、人物 ReID、マルチオブジェクト トラッキング用の最先端のリアルタイム モデルを組み合わせた半自動アノテーション フレームワークと GUI を開発しました。 MEVID チャレンジの問題に関するいくつかの最先端の方法を評価し、衣装、スケール、および背景の場所の変化に関してそれらの堅牢性を包括的に定量化します。 MEVID の現実的でユニークな側面に関する定量分析は、ビデオ パーソン ReID に重大な課題が残っていることを示し、将来の研究の重要な方向性を示しています。
In this paper, we present the Multi-view Extended Videos with Identities (MEVID) dataset for large-scale, video person re-identification (ReID) in the wild. To our knowledge, MEVID represents the most-varied video person ReID dataset, spanning an extensive indoor and outdoor environment across nine unique dates in a 73-day window, various camera viewpoints, and entity clothing changes. Specifically, we label the identities of 158 unique people wearing 598 outfits taken from 8, 092 tracklets, average length of about 590 frames, seen in 33 camera views from the very large-scale MEVA person activities dataset. While other datasets have more unique identities, MEVID emphasizes a richer set of information about each individual, such as: 4 outfits/identity vs. 2 outfits/identity in CCVID, 33 viewpoints across 17 locations vs. 6 in 5 simulated locations for MTA, and 10 million frames vs. 3 million for LS-VID. Being based on the MEVA video dataset, we also inherit data that is intentionally demographically balanced to the continental United States. To accelerate the annotation process, we developed a semi-automatic annotation framework and GUI that combines state-of-the-art real-time models for object detection, pose estimation, person ReID, and multi-object tracking. We evaluate several state-of-the-art methods on MEVID challenge problems and comprehensively quantify their robustness in terms of changes of outfit, scale, and background location. Our quantitative analysis on the realistic, unique aspects of MEVID shows that there are significant remaining challenges in video person ReID and indicates important directions for future research.