arXiv reaDer
ビデオ人物の再識別のための拡張トリプレット損失の設定
Set Augmented Triplet Loss for Video Person Re-Identification
最新のビデオ人物再識別(re-ID)マシンは、多くの場合、トリプレット損失によって監視されるメトリック学習アプローチを使用してトレーニングされます。ビデオre-IDで使用されるトリプレット損失は、通常、いわゆるクリップ機能に基づいており、それぞれがいくつかのフレーム機能から集約されます。この論文では、ビデオクリップをセットとしてモデル化し、代わりに対応するトリプレット損失のセット間の距離を調査することを提案します。クリップ表現間の距離とは対照的に、クリップセット間の距離は、2つのセット間の各要素(つまり、フレーム表現)のペアワイズ類似性を考慮します。これにより、ネットワークはフレームレベルで特徴表現を直接最適化できます。一般的に使用されるセット距離メトリック(たとえば、通常の距離とハウスドルフ距離)とは別に、セット認識トリプレット損失に合わせて調整されたハイブリッド距離メトリックをさらに提案します。また、学習したクラスのプロトタイプをバッチで使用して、ハードポジティブセット構築戦略を提案します。私たちの提案する方法は、いくつかの標準的なベンチマークにわたって最先端の結果を達成し、提案された方法の利点を示しています。
Modern video person re-identification (re-ID) machines are often trained using a metric learning approach, supervised by a triplet loss. The triplet loss used in video re-ID is usually based on so-called clip features, each aggregated from a few frame features. In this paper, we propose to model the video clip as a set and instead study the distance between sets in the corresponding triplet loss. In contrast to the distance between clip representations, the distance between clip sets considers the pair-wise similarity of each element (i.e., frame representation) between two sets. This allows the network to directly optimize the feature representation at a frame level. Apart from the commonly-used set distance metrics (e.g., ordinary distance and Hausdorff distance), we further propose a hybrid distance metric, tailored for the set-aware triplet loss. Also, we propose a hard positive set construction strategy using the learned class prototypes in a batch. Our proposed method achieves state-of-the-art results across several standard benchmarks, demonstrating the advantages of the proposed method.
updated: Mon Nov 02 2020 06:45:14 GMT+0000 (UTC)
published: Mon Nov 02 2020 06:45:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト