arXiv reaDer
映像異常検出のための時空間関係学習
Spatio-Temporal Relation Learning for Video Anomaly Detection
同じ/異なるシーンでの異なる/同じオブジェクトのアクションは、さまざまな程度の正常性と異常につながる可能性があるため、異常の識別はオブジェクトとシーンの関係に大きく依存します。したがって、オブジェクトとシーンの関係は、実際には異常検出において重要な役割を果たしますが、以前の研究では十分に調査されていません。この論文では、ビデオ異常検出タスクに取り組むための時空間関係学習 (STRL) フレームワークを提案します。まず、オブジェクトとシーン領域の動的特性を考慮して、時空間自動エンコーダー (STAE) を構築し、表現学習のために空間的および時間的進化パターンを共同で利用します。より良いパターン抽出のために、STAE モジュールでは 2 つのデコード ブランチが設計されています。つまり、次のフレームを直接予測して空間キューをキャプチャする外観ブランチと、オプティカル フロー予測によるダイナミクスのモデリングに焦点を当てたモーション ブランチです。次に、オブジェクトとシーンの関係を適切に具体化するために、関係学習 (RL) モジュールを考案して、ナレッジ グラフ埋め込み方法論を導入することにより、通常の関係を分析および要約します。具体的には、このプロセスでは、オブジェクト/シーンの特徴と最適化可能なオブジェクト-シーン関係マップを共同でモデル化することにより、オブジェクト-シーン関係の妥当性が測定されます。 3つの公開データセットで広範な実験が行われ、最先端の方法よりも優れたパフォーマンスが私たちの方法の有効性を示しています。
Anomaly identification is highly dependent on the relationship between the object and the scene, as different/same object actions in same/different scenes may lead to various degrees of normality and anomaly. Therefore, object-scene relation actually plays a crucial role in anomaly detection but is inadequately explored in previous works. In this paper, we propose a Spatial-Temporal Relation Learning (STRL) framework to tackle the video anomaly detection task. First, considering dynamic characteristics of the objects as well as scene areas, we construct a Spatio-Temporal Auto-Encoder (STAE) to jointly exploit spatial and temporal evolution patterns for representation learning. For better pattern extraction, two decoding branches are designed in the STAE module, i.e. an appearance branch capturing spatial cues by directly predicting the next frame, and a motion branch focusing on modeling the dynamics via optical flow prediction. Then, to well concretize the object-scene relation, a Relation Learning (RL) module is devised to analyze and summarize the normal relations by introducing the Knowledge Graph Embedding methodology. Specifically in this process, the plausibility of object-scene relation is measured by jointly modeling object/scene features and optimizable object-scene relation maps. Extensive experiments are conducted on three public datasets, and the superior performance over the state-of-the-art methods demonstrates the effectiveness of our method.
updated: Tue Sep 27 2022 02:19:31 GMT+0000 (UTC)
published: Tue Sep 27 2022 02:19:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト