arXiv reaDer
教育活動予測のためのクロスモーダル対照蒸留
Cross-modal Contrastive Distillation for Instructional Activity Anticipation
この研究では、過去の観察を前提として、もっともらしい将来の行動ステップを予測し、教育活動の予測のタスクを研究することを目指しています。アクションラベルの予測を目的とした以前の予測タスクとは異なり、私たちの作業は、将来のアクションステップの解釈可能で正確な説明を提供する自然言語出力を生成することを目的としています。教育ビデオから抽出されたセマンティック情報が不足しているため、これは困難な作業です。この課題を克服するために、視覚的予測タスクを支援するために関連する外部のテキスト知識を活用するための新しい知識蒸留フレームワークを提案します。ただし、以前の知識蒸留技術は、通常、同じモダリティ内で情報を転送します。蒸留プロセス中の視覚的モダリティとテキストモダリティの間のギャップを埋めるために、提案されたクロスモーダル蒸留損失で異種モダリティの教師と学生の間の知識蒸留を容易にする新しいクロスモーダル対照蒸留(CCD)スキームを考案します。 TastyVideosデータセットでメソッドを評価します。 CCDは、BLEU4で比較的40.2%の大幅なマージンで、視覚のみの学生モデルの予測パフォーマンスを向上させます。また、私たちのアプローチは、最先端のアプローチを大幅に上回っています。
In this study, we aim to predict the plausible future action steps given an observation of the past and study the task of instructional activity anticipation. Unlike previous anticipation tasks that aim at action label prediction, our work targets at generating natural language outputs that provide interpretable and accurate descriptions of future action steps. It is a challenging task due to the lack of semantic information extracted from the instructional videos. To overcome this challenge, we propose a novel knowledge distillation framework to exploit the related external textual knowledge to assist the visual anticipation task. However, previous knowledge distillation techniques generally transfer information within the same modality. To bridge the gap between the visual and text modalities during the distillation process, we devise a novel cross-modal contrastive distillation (CCD) scheme, which facilitates knowledge distillation between teacher and student in heterogeneous modalities with the proposed cross-modal distillation loss. We evaluate our method on the Tasty Videos dataset. CCD improves the anticipation performance of the visual-alone student model by a large margin of 40.2% relatively in BLEU4. Our approach also outperforms the state-of-the-art approaches by a large margin.
updated: Tue Jan 18 2022 04:20:33 GMT+0000 (UTC)
published: Tue Jan 18 2022 04:20:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト