arXiv reaDer
Video Person Re-Identification using Learned Clip Similarity Aggregation
  ビデオベースの個人の再識別という困難なタスクに対処します。最近の研究では、ビデオシーケンスをクリップに分割し、クリップベースの類似性を集約することがタスクに適していることが示されています。学習されたクリップ類似度集計関数を使用すると、ハードクリップペアを除外できることがわかります。人がはっきりと見えない場所、挑戦的なポーズを取っている場所、または2つのクリップのポーズがあまりにも異なって情報を提供できない場所です。これにより、メソッドは、タスクにとってより有益なクリップペアに焦点を合わせることができます。また、ビデオベースの再識別のための3D CNNの使用を紹介し、RGB入力のみを使用しながらRGBに加えてオプティカルフローを使用する以前の作品と同等のパフォーマンスを実行することにより、その有効性を示します。 3つの困難な公開ベンチマークで定量的な結果を提供し、より良いまたは競争力のあるパフォーマンスを示しています。また、メソッドを定性的に検証します。
We address the challenging task of video-based person re-identification. Recent works have shown that splitting the video sequences into clips and then aggregating clip based similarity is appropriate for the task. We show that using a learned clip similarity aggregation function allows filtering out hard clip pairs, e.g. where the person is not clearly visible, is in a challenging pose, or where the poses in the two clips are too different to be informative. This allows the method to focus on clip-pairs which are more informative for the task. We also introduce the use of 3D CNNs for video-based re-identification and show their effectiveness by performing equivalent to previous works, which use optical flow in addition to RGB, while using RGB inputs only. We give quantitative results on three challenging public benchmarks and show better or competitive performance. We also validate our method qualitatively.
updated: Thu Oct 17 2019 17:34:27 GMT+0000 (UTC)
published: Thu Oct 17 2019 17:34:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト