このホワイトペーパーでは、複数の畳み込みニューラルネットワーク(CNN)を使用した、ビデオベースの個人の再識別のための新しいアプローチを示します。前の作品とは異なり、シーケンス全体ではなく、いくつかのフレームからコンパクトでありながら識別可能な外観表現を抽出する予定です。具体的には、ビデオが与えられると、代表的なフレームは、連続するフレームの歩行プロファイルに基づいて選択されます。機能プーリングを組み込んだ複数のCNNアーキテクチャは、選択された代表フレームの機能を学習およびコンパイルして、歩行者についての識別のためのコンパクトな記述にまとめることを提案します。ベンチマークデータセットで実験が行われ、既存の個人再識別アプローチに対する提案された方法の優位性が実証されます。
This paper presents a novel approach for video-based person re-identification using multiple Convolutional Neural Networks (CNNs). Unlike previous work, we intend to extract a compact yet discriminative appearance representation from several frames rather than the whole sequence. Specifically, given a video, the representative frames are selected based on the walking profile of consecutive frames. A multiple CNN architecture incorporated with feature pooling is proposed to learn and compile the features of the selected representative frames into a compact description about the pedestrian for identification. Experiments are conducted on benchmark datasets to demonstrate the superiority of the proposed method over existing person re-identification approaches.