一人称ビデオでの自己中心的な活動認識は、ライフログ、要約、生活支援、活動追跡などのさまざまなアプリケーションで重要性を増しています。このタスクの既存の方法は、各機能の事前に決定された重みを使用したさまざまなセンサー情報の解釈に基づいています。この作業では、視聴覚機能とマルチカーネル学習(MKL)およびマルチカーネルブースティング(MKBoost)の組み合わせに基づく、自己中心的な活動認識問題の新しいフレームワークを提案します。そのために、まずグリッドオプティカルフロー、仮想慣性機能、対数共分散、直方体がビデオから抽出されます。オーディオ信号は、フレームレベルの特徴のガウス混合モデリングに基づいて取得された「スーパーベクトル」を使用して特徴付けられ、その後、最大事後適応が続きます。次に、抽出されたマルチモーダル機能は、MKL分類器によって適応的に融合され、機能とカーネルの選択/重み付けおよび認識タスクの両方が一緒に実行されます。提案されたフレームワークは、多くの自己中心的なデータセットで評価されました。結果は、MKLでマルチモーダル機能を使用すると、既存の方法よりも優れていることを示しています。
Egocentric activity recognition in first-person videos has an increasing importance with a variety of applications such as lifelogging, summarization, assisted-living and activity tracking. Existing methods for this task are based on interpretation of various sensor information using pre-determined weights for each feature. In this work, we propose a new framework for egocentric activity recognition problem based on combining audio-visual features with multi-kernel learning (MKL) and multi-kernel boosting (MKBoost). For that purpose, firstly grid optical-flow, virtual-inertia feature, log-covariance, cuboid are extracted from the video. The audio signal is characterized using a "supervector", obtained based on Gaussian mixture modelling of frame-level features, followed by a maximum a-posteriori adaptation. Then, the extracted multi-modal features are adaptively fused by MKL classifiers in which both the feature and kernel selection/weighing and recognition tasks are performed together. The proposed framework was evaluated on a number of egocentric datasets. The results showed that using multi-modal features with MKL outperforms the existing methods.