arXiv reaDer
マルチモーダル知識の拡張
Multimodal Knowledge Expansion
マルチモーダルセンサーの人気とインターネットのアクセシビリティにより、ラベルのないマルチモーダルデータが大量に発生しました。既存のデータセットと十分にトレーニングされたモデルは主にユニモーダルであるため、ユニモーダルネットワークとラベルなしマルチモーダルデータ間のモダリティギャップは興味深い問題を引き起こします:ラベルなしマルチモーダルデータで同じタスクを実行するために事前トレーニング済みユニモーダルネットワークを転送する方法は?この作業では、ラベルを必要とせずにマルチモーダルデータを効果的に利用するための知識蒸留ベースのフレームワークであるマルチモーダル知識拡張(MKE)を提案します。学生が軽量で教師より劣るように設計されている伝統的な知識蒸留とは対照的に、マルチモーダル学生モデルは一貫して疑似ラベルのノイズを除去し、教師よりも一般化することがわかります。 4つのタスクとさまざまなモダリティに関する広範な実験により、この発見が検証されます。さらに、MKEのメカニズムを半教師あり学習に接続し、経験的および理論的な説明を提供して、マルチモーダル学生のノイズ除去機能を理解します。
The popularity of multimodal sensors and the accessibility of the Internet have brought us a massive amount of unlabeled multimodal data. Since existing datasets and well-trained models are primarily unimodal, the modality gap between a unimodal network and unlabeled multimodal data poses an interesting problem: how to transfer a pre-trained unimodal network to perform the same task on unlabeled multimodal data? In this work, we propose multimodal knowledge expansion (MKE), a knowledge distillation-based framework to effectively utilize multimodal data without requiring labels. Opposite to traditional knowledge distillation, where the student is designed to be lightweight and inferior to the teacher, we observe that a multimodal student model consistently denoises pseudo labels and generalizes better than its teacher. Extensive experiments on four tasks and different modalities verify this finding. Furthermore, we connect the mechanism of MKE to semi-supervised learning and offer both empirical and theoretical explanations to understand the denoising capability of a multimodal student.
updated: Fri May 21 2021 03:10:48 GMT+0000 (UTC)
published: Fri Mar 26 2021 12:32:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト