カメラネットワークで人を見つけることは、ビデオ監視で重要な役割を果たします。現実世界の個人再識別アプリケーションの場合、最適な時間応答を保証するには、精度と速度のバランスを見つけることが重要です。このトレードオフを分析し、手作りの特徴記述とメトリック学習、特にLOMOとXQDAを含む従来の方法を、画像分類ネットワーク、ResNet、およびMobileNetを使用した深層学習ベースの手法と比較します。さらに、テスト時のディープラーニングアプローチの計算コストを削減するための学習戦略として、ネットワーク蒸留を提案および分析します。 Market-1501およびDukeMTMC-reIDの大規模データセットで両方の方法を評価し、蒸留が推論時の計算コストを削減し、精度パフォーマンスを向上させることを示しています。
Finding a person across a camera network plays an important role in video surveillance. For a real-world person re-identification application, in order to guarantee an optimal time response, it is crucial to find the balance between accuracy and speed. We analyse this trade-off, comparing a classical method, that comprises hand-crafted feature description and metric learning, in particular, LOMO and XQDA, to deep learning based techniques, using image classification networks, ResNet and MobileNets. Additionally, we propose and analyse network distillation as a learning strategy to reduce the computational cost of the deep learning approach at test time. We evaluate both methods on the Market-1501 and DukeMTMC-reID large-scale datasets, showing that distillation helps reducing the computational cost at inference time while even increasing the accuracy performance.