Bag of Attributes for Video Event Retrieval
この論文では、ビデオイベントの検索を目的としたビデオ表現のBag-of-Attributes(BoA)モデルを紹介します。 BoAモデルは、ビデオを表現するためのセマンティック特徴空間に基づいており、高レベルのビデオ特徴ベクトルが得られます。セマンティック空間、つまり属性空間を作成するために、ラベル付き画像データセットを使用して分類器をトレーニングし、高レベルのコードブックとして理解できる分類モデルを取得できます。このモデルは、低レベルのフレームベクトルを高レベルのベクトル(分類子の確率スコアなど)にマッピングするために使用されます。次に、プール操作をフレームベクトルに適用して、ビデオの属性の最終バッグを作成します。 BoA表現では、各次元は意味空間の1つのカテゴリー(または属性)に対応します。その他の興味深い特性は、コンパクトさ、分類子に関する柔軟性、および単一のビデオ表現で複数のセマンティック概念をエンコードする機能です。私たちの実験では、ImageNetの1000個のオブジェクトカテゴリで事前トレーニングされた最先端の畳み込みニューラルネットワークによって作成されたセマンティック空間を検討しました。このようなディープニューラルネットワークを使用して各ビデオフレームを分類し、次にさまざまなコーディング戦略を使用して、ソフトマックス層からフレームベクトルに確率分布をエンコードしました。次に、さまざまなプーリング戦略を使用して、ビデオのBoA表現でフレームベクトルを組み合わせました。 BoAを使用した結果は、EVVEデータセットを使用したビデオイベント検索のタスクのベースラインと同等またはそれより優れており、はるかにコンパクトな表現を提供できるという利点があります。
In this paper, we present the Bag-of-Attributes (BoA) model for video representation aiming at video event retrieval. The BoA model is based on a semantic feature space for representing videos, resulting in high-level video feature vectors. For creating a semantic space, i.e., the attribute space, we can train a classifier using a labeled image dataset, obtaining a classification model that can be understood as a high-level codebook. This model is used to map low-level frame vectors into high-level vectors (e.g., classifier probability scores). Then, we apply pooling operations to the frame vectors to create the final bag of attributes for the video. In the BoA representation, each dimension corresponds to one category (or attribute) of the semantic space. Other interesting properties are: compactness, flexibility regarding the classifier, and ability to encode multiple semantic concepts in a single video representation. Our experiments considered the semantic space created by state-of-the-art convolutional neural networks pre-trained on 1000 object categories of ImageNet. Such deep neural networks were used to classify each video frame and then different coding strategies were used to encode the probability distribution from the softmax layer into a frame vector. Next, different pooling strategies were used to combine frame vectors in the BoA representation for a video. Results using BoA were comparable or superior to the baselines in the task of video event retrieval using the EVVE dataset, with the advantage of providing a much more compact representation.
updated: Sat Dec 26 2020 13:47:31 GMT+0000 (UTC)
published: Mon Jul 18 2016 17:24:23 GMT+0000 (UTC)
