arXiv reaDer
C^3: ビデオに基づいた対話のための構成的反事実対照学習
C^3: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues
ビデオベースの対話システムは、ビデオの理解と対話の理解を統合して、対話とビデオのコンテキストの両方に関連する応答を生成することを目的としています。既存のアプローチのほとんどは深層学習モデルを採用しており、利用可能なデータセットが比較的小さいことを考慮すると、顕著なパフォーマンスを達成しています。ただし、その結果の一部は、マルチモーダルな推論を開発するのではなく、データセット内のバイアスを利用することによって達成されており、一般化は限られています。この論文では、ビデオに基づいた対話における事実サンプルと反事実サンプル間の対比トレーニングを開発するための、構成的反事実対比学習 (C^3) の新しいアプローチを提案します。具体的には、ビデオや対話内のトークンの時間的ステップに基づいて事実/反事実のサンプリングを設計し、オブジェクトレベルまたはアクションレベルの差異を利用する対照的な損失関数を提案します。以前のアプローチとは異なり、生成設定における表現空間を最適化するために、合成出力トークン間の対照的な隠れ状態表現に焦点を当てます。私たちは、AVSD (Audio-Visual Scene-Aware Dialogues) ベンチマークで有望なパフォーマンス向上を達成し、ビデオと対話のコンテキストをグラウンディングする際のアプローチの利点を示しました。
Video-grounded dialogue systems aim to integrate video understanding and dialogue understanding to generate responses that are relevant to both the dialogue and video context. Most existing approaches employ deep learning models and have achieved remarkable performance, given the relatively small datasets available. However, the results are partly accomplished by exploiting biases in the datasets rather than developing multimodal reasoning, resulting in limited generalization. In this paper, we propose a novel approach of Compositional Counterfactual Contrastive Learning (C^3) to develop contrastive training between factual and counterfactual samples in video-grounded dialogues. Specifically, we design factual/counterfactual sampling based on the temporal steps in videos and tokens in dialogues and propose contrastive loss functions that exploit object-level or action-level variance. Different from prior approaches, we focus on contrastive hidden state representations among compositional output tokens to optimize the representation space in a generation setting. We achieved promising performance gains on the Audio-Visual Scene-Aware Dialogues (AVSD) benchmark and showed the benefits of our approach in grounding video and dialogue context.
updated: Sat Aug 05 2023 08:04:15 GMT+0000 (UTC)
published: Wed Jun 16 2021 16:05:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト