一般的なWebベースのマルチメディア共有Webサイトでの既存のビデオインデックスおよび検索方法は、ユーザーが提供するスパースタグに基づいています。このペーパーでは、ビデオのコンテンツに基づいて、ビデオクリップを検索する非常に具体的な方法を提案します。コレスポンデンスレイテンシディリクレ割り当て(corr-LDA)確率的フレームワークを使用したコンテンツベースのビデオインデックス作成と検索に関する作業を紹介します。これは、テキスト記述子を使用してデータベース内のビデオの自動注釈を提供するモデルであり、ビデオとテキストのコンテンツ間のセマンティック関係を利用するという追加の利点をもたらします。 corr-LDAが提供する概念レベルのマッチングを使用して、テキストとマルチメディアの対応を構築し、より高い精度でコンテンツを取得することを目的としています。実験では、個々の録音のオーディオコンポーネントのみを使用し、結果をSVMベースのアプローチと比較します。
Existing video indexing and retrieval methods on popular web-based multimedia sharing websites are based on user-provided sparse tagging. This paper proposes a very specific way of searching for video clips, based on the content of the video. We present our work on Content-based Video Indexing and Retrieval using the Correspondence-Latent Dirichlet Allocation (corr-LDA) probabilistic framework. This is a model that provides for auto-annotation of videos in a database with textual descriptors, and brings the added benefit of utilizing the semantic relations between the content of the video and text. We use the concept-level matching provided by corr-LDA to build correspondences between text and multimedia, with the objective of retrieving content with increased accuracy. In our experiments, we employ only the audio components of the individual recordings and compare our results with an SVM-based approach.