多くの実際のビデオ分析アプリケーションでは、TVニュース放送のインタビューやコマーシャル、映画のアクションシーケンスなど、ビデオのドメイン固有のイベントを識別する機能が必要です。残念ながら、ビデオで関心のあるすべてのイベントを検出するための事前にトレーニングされたモデルが存在しない場合があり、新しいモデルを最初からトレーニングするのはコストと労力がかかります。このホワイトペーパーでは、より伝統的な方法でビデオの新しいイベントを指定するユーティリティを検討します。既存の事前トレーニングモデルの出力を構成するクエリを記述することです。これらのクエリを記述するために、合成ビデオイベント仕様のデータモデルとプログラミングモデルを公開するライブラリであるRekallを開発しました。 Rekallは、さまざまなソース(オブジェクト検出器、トランスクリプトなど)からのビデオ注釈を、ビデオの連続する時空に関連付けられた時空間ラベルとして表し、新しいビデオイベントをモデル化するクエリにラベルを作成するための演算子を提供します。ケーブルテレビのニュース放送、映画、静的カメラ車両のビデオストリーム、商用自律走行車のログからのビデオを分析する際にRekallを使用する方法を示します。これらの取り組みの中で、ドメインエキスパートはクエリをすばやく(数時間から1日で)作成し、新しいイベントの正確な検出(学習したアプローチと同等、場合によってははるかに正確)を可能にし、迅速に取得することができましたビデオコンテンツのキュレーションやトレーニングデータのキュレーションなど、ヒューマンインザループタスク用のビデオクリップ。最後に、ユーザー調査で、Rekallの初心者ユーザーは、クエリを1時間作成するだけで、ビデオの新しいイベントを取得するクエリを作成できました。
Many real-world video analysis applications require the ability to identify domain-specific events in video, such as interviews and commercials in TV news broadcasts, or action sequences in film. Unfortunately, pre-trained models to detect all the events of interest in video may not exist, and training new models from scratch can be costly and labor-intensive. In this paper, we explore the utility of specifying new events in video in a more traditional manner: by writing queries that compose outputs of existing, pre-trained models. To write these queries, we have developed Rekall, a library that exposes a data model and programming model for compositional video event specification. Rekall represents video annotations from different sources (object detectors, transcripts, etc.) as spatiotemporal labels associated with continuous volumes of spacetime in a video, and provides operators for composing labels into queries that model new video events. We demonstrate the use of Rekall in analyzing video from cable TV news broadcasts, films, static-camera vehicular video streams, and commercial autonomous vehicle logs. In these efforts, domain experts were able to quickly (in a few hours to a day) author queries that enabled the accurate detection of new events (on par with, and in some cases much more accurate than, learned approaches) and to rapidly retrieve video clips for human-in-the-loop tasks such as video content curation and training data curation. Finally, in a user study, novice users of Rekall were able to author queries to retrieve new events in video given just one hour of query development time.