Count, Crop and Recognise: Fine-Grained Recognition in the Wild
  このペーパーの目的は、ビデオのすべてのフレームに存在するすべての動物個体にラベルを付けることです。主にフェイストラックのラベル付けに集中していた以前の方法とは異なり、顔が見えない場合でも個人にラベルを付けることを目指しています。以下の貢献を行います。(i)フレームレベルのラベル付けのために、 'Count、Crop and Recognise'(CCR)マルチステージ認識プロセスを導入します。 CountステージとRecognizeステージには、タスクに特化したCNNが含まれます。この単純なステージングにより、パフォーマンスが大幅に向上することがわかります。 (ii)フレームベースのラベリングを使用したリコールを顔とボディトラックベースのラベリングの両方と比較し、指定された目標に対するフレームベースのCCRの利点を示します。 (iii)野生でのチンパンジー認識のための新しいデータセットを導入します。 (iv)チンパンジーの個体を認識するために学習したCNN機能をさらに理解するために、高粒度の視覚化手法を適用します。
The goal of this paper is to label all the animal individuals present in every frame of a video. Unlike previous methods that have principally concentrated on labelling face tracks, we aim to label individuals even when their faces are not visible. We make the following contributions: (i) we introduce a 'Count, Crop and Recognise' (CCR) multistage recognition process for frame level labelling. The Count and Recognise stages involve specialised CNNs for the task, and we show that this simple staging gives a substantial boost in performance; (ii) we compare the recall using frame based labelling to both face and body track based labelling, and demonstrate the advantage of frame based with CCR for the specified goal; (iii) we introduce a new dataset for chimpanzee recognition in the wild; and (iv) we apply a high-granularity visualisation technique to further understand the learned CNN features for the recognition of chimpanzee individuals.
updated: Wed Oct 09 2019 16:33:01 GMT+0000 (UTC)
published: Thu Sep 19 2019 12:57:39 GMT+0000 (UTC)
