世界との相互作用は、本質的にマルチモーダルな経験です。しかし、人間とオブジェクトの相互作用の理解は、歴史的には単一のモダリティに焦点を当てて対処されてきました。特に、限られた数の作品が、この目的のために視覚と音声のモダリティを統合することを検討しています。この作業では、オーディオおよびビジュアル情報に依存するキッチン環境におけるエゴセントリックアクション認識のためのマルチモーダルアプローチを提案します。このモデルは、スパース時間サンプリング戦略と、オーディオ、空間、時間ストリームの遅い融合を組み合わせています。 EPIC-Kitchensデータセットの実験結果は、マルチモーダル統合がユニモーダルアプローチよりも優れたパフォーマンスをもたらすことを示しています。特に、最新の動詞分類よりも5.18%の改善を達成しました。
Our interaction with the world is an inherently multimodal experience. However, the understanding of human-to-object interactions has historically been addressed focusing on a single modality. In particular, a limited number of works have considered to integrate the visual and audio modalities for this purpose. In this work, we propose a multimodal approach for egocentric action recognition in a kitchen environment that relies on audio and visual information. Our model combines a sparse temporal sampling strategy with a late fusion of audio, spatial, and temporal streams. Experimental results on the EPIC-Kitchens dataset show that multimodal integration leads to better performance than unimodal approaches. In particular, we achieved a 5.18% improvement over the state of the art on verb classification.