arXiv reaDer
Coordinated Joint Multimodal Embeddings for Generalized Audio-Visual Zeroshot Classification and Retrieval of Videos
  ビデオの分類と検索のためのゼロショット学習(ZSL)のタスクの視聴覚マルチモーダルアプローチを提示します。 ZSLは最近過去に広範囲に研究されてきましたが、主に視覚モダリティと画像に限定されていました。ビデオのZSLでは、オーディオと視覚の両方のモダリティが重要であることを示しています。タスクを調査するためのデータセットは現在利用できないため、既存の大規模なオーディオイベントデータセットから156,416ビデオを含む33クラスで適切なマルチモーダルデータセットを構築します。埋め込み学習方法のマルチモーダル拡張を使用する場合、ゼロショット分類と検索の両方のタスクにオーディオモダリティを追加することにより、パフォーマンスが向上することを経験的に示しています。また、共同学習モダリティアテンションネットワークを使用して「支配的な」モダリティを予測する新しい方法を提案します。半教師付き設定で注意を学習するため、モダリティに明示的なラベルを追加する必要はありません。モダリティ固有の注意の定性的検証を提供します。これは、目に見えないテストクラスへの一般化にも成功します。
We present an audio-visual multimodal approach for the task of zeroshot learning (ZSL) for classification and retrieval of videos. ZSL has been studied extensively in the recent past but has primarily been limited to visual modality and to images. We demonstrate that both audio and visual modalities are important for ZSL for videos. Since a dataset to study the task is currently not available, we also construct an appropriate multimodal dataset with 33 classes containing 156,416 videos, from an existing large scale audio event dataset. We empirically show that the performance improves by adding audio modality for both tasks of zeroshot classification and retrieval, when using multimodal extensions of embedding learning methods. We also propose a novel method to predict the `dominant' modality using a jointly learned modality attention network. We learn the attention in a semi-supervised setting and thus do not require any additional explicit labelling for the modalities. We provide qualitative validation of the modality specific attention, which also successfully generalizes to unseen test classes.
updated: Sat Oct 19 2019 09:39:28 GMT+0000 (UTC)
published: Sat Oct 19 2019 09:39:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト