arXiv reaDer
ビデオベースの個人再識別のための時空間表現因数分解
Spatio-Temporal Representation Factorization for Video-based Person Re-Identification
ビデオベースの人物再識別(re-ID)の最近の進歩にもかかわらず、現在の最先端技術は、さまざまな人物間の外観の類似性、オクルージョン、フレームの不整合など、一般的な現実世界の課題に依然として苦しんでいます。これらの問題を軽減するために、Re-ID用のほとんどの既存の3D畳み込みニューラルネットワークアーキテクチャと組み合わせて使用できる柔軟な新しい計算ユニットである時空間表現因数分解モジュール(STRF)を提案します。以前の作業に対するSTRFの主要な革新には、識別可能な時間的および空間的特徴を学習するための明示的な経路が含まれ、各コンポーネントは、補完的な個人固有の外観および動きの情報をキャプチャするためにさらに因数分解されます。具体的には、時間的因数分解は2つのブランチで構成され、それぞれが時間の経過とともにあまり変化しない静的な特徴(たとえば、衣服の色)と、時間の経過とともに変化する動的な特徴(たとえば、歩行パターン)に対応します。さらに、空間因数分解は、グローバル(粗いセグメント)とローカル(細かいセグメント)の両方の外観の特徴を学習するための2つのブランチも含み、ローカルの特徴は、オクルージョンまたは空間的な不整合の場合に特に役立ちます。これらの2つの因数分解操作を組み合わせると、パラメーターごとの経済的なSTRFユニットのモジュラーアーキテクチャが得られ、2つの3D畳み込み層の間に接続できるため、エンドツーエンドの学習フレームワークが得られます。 STRFがさまざまな既存のベースラインアーキテクチャのパフォーマンスを向上させると同時に、3つのベンチマークで標準的な個人再識別評価プロトコルを使用して新しい最先端の結果を実証することを経験的に示します。
Despite much recent progress in video-based person re-identification (re-ID), the current state-of-the-art still suffers from common real-world challenges such as appearance similarity among various people, occlusions, and frame misalignment. To alleviate these problems, we propose Spatio-Temporal Representation Factorization module (STRF), a flexible new computational unit that can be used in conjunction with most existing 3D convolutional neural network architectures for re-ID. The key innovations of STRF over prior work include explicit pathways for learning discriminative temporal and spatial features, with each component further factorized to capture complementary person-specific appearance and motion information. Specifically, temporal factorization comprises two branches, one each for static features (e.g., the color of clothes) that do not change much over time, and dynamic features (e.g., walking patterns) that change over time. Further, spatial factorization also comprises two branches to learn both global (coarse segments) as well as local (finer segments) appearance features, with the local features particularly useful in cases of occlusion or spatial misalignment. These two factorization operations taken together result in a modular architecture for our parameter-wise economic STRF unit that can be plugged in between any two 3D convolutional layers, resulting in an end-to-end learning framework. We empirically show that STRF improves performance of various existing baseline architectures while demonstrating new state-of-the-art results using standard person re-identification evaluation protocols on three benchmarks.
updated: Sun Jul 25 2021 19:29:37 GMT+0000 (UTC)
published: Sun Jul 25 2021 19:29:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト