バックグラウンド減算は、多くのコンピュータービジョンおよびビデオ分析タスクの原動力となっています。多くのバリアントが存在しますが、それらはすべて、測光シーンプロパティが静的であるか、一時的な定常性を示すという基本的な仮定を共有しています。これは一部のアプリケーションでは機能しますが、静的なバックグラウンドの変化ではなく、シーンのダイナミクスの変化の検出に関心がある場合、モデルは失敗します。異常な歩行者と自動車の交通パターンの検出は、ほんの一例です。静止シーンダイナミクスを、観測されたシーンダイナミクスを比較する「背景」と見なすことにより、この障害に対処する新しいモデルと計算フレームワークを提案します。アプローチの中心はイベントの概念です。これは、カメラの視野内の特定の空間位置でタイムウィンドウにわたってキャプチャされた短期のシーンダイナミクスとして定義します。バックグラウンドの減算によって取得されたモーションラベルとオブジェクト記述子(オブジェクトサイズなど)を時間集約してイベントを計算します。続いて、イベントを確率的に特徴付けますが、実際の実装では、低メモリ、低複雑度の代理を使用します。これらのサロゲートを使用することは、いくつかの驚くべき特性を持つ新しいアルゴリズムである動作減算に相当します。ここで示されているように、動作の減算は、異常の検出とローカリゼーションの効果的なツールです。これは、カメラのジッターによるものなど、偽の背景の動きに対して弾力性があり、コンテンツブラインドです。つまり、人間、車、動物、および乱雑でないシーンと乱雑なシーンの両方で同様にうまく機能します。明らかに、ビデオを色付きピクセルではなくイベントのコレクションとして扱うことで、ビデオ分析の新しい可能性が開かれます。
Background subtraction has been a driving engine for many computer vision and video analytics tasks. Although its many variants exist, they all share the underlying assumption that photometric scene properties are either static or exhibit temporal stationarity. While this works in some applications, the model fails when one is interested in discovering changes in scene dynamics rather than those in a static background; detection of unusual pedestrian and motor traffic patterns is but one example. We propose a new model and computational framework that address this failure by considering stationary scene dynamics as a ``background'' with which observed scene dynamics are compared. Central to our approach is the concept of an event, that we define as short-term scene dynamics captured over a time window at a specific spatial location in the camera field of view. We compute events by time-aggregating motion labels, obtained by background subtraction, as well as object descriptors (e.g., object size). Subsequently, we characterize events probabilistically, but use a low-memory, low-complexity surrogates in practical implementation. Using these surrogates amounts to behavior subtraction, a new algorithm with some surprising properties. As demonstrated here, behavior subtraction is an effective tool in anomaly detection and localization. It is resilient to spurious background motion, such as one due to camera jitter, and is content-blind, i.e., it works equally well on humans, cars, animals, and other objects in both uncluttered and highly-cluttered scenes. Clearly, treating video as a collection of events rather than colored pixels opens new possibilities for video analytics.