arXiv reaDer
C ^ 3:ビデオに基づいた対話のための構成的反事実的制約学習
C^3: Compositional Counterfactual Constrastive Learning for Video-grounded Dialogues
ビデオベースの対話システムは、ビデオ理解と対話理解を統合して、対話とビデオコンテキストの両方に関連する応答を生成することを目的としています。利用可能なデータセットが比較的小さいことを考えると、ほとんどの既存のアプローチはディープラーニングモデルを採用しており、驚くべきパフォーマンスを達成しています。ただし、結果は、マルチモーダル推論を開発するのではなく、データセットのバイアスを利用することによって部分的に達成されるため、一般化が制限されます。この論文では、ビデオに基づいた対話における事実と反事実のサンプル間の対照トレーニングを開発するために、構成的反事実的対照学習(C ^ 3)の新しいアプローチを提案します。具体的には、対話内のビデオとトークンの時間的ステップに基づいて事実/反事実サンプリングを設計し、オブジェクトレベルまたはアクションレベルの分散を利用する対照的な損失関数を提案します。以前のアプローチとは異なり、世代設定の表現空間を最適化するために、構成出力トークン間の対照的な隠れた状態表現に焦点を当てています。オーディオビジュアルシーンアウェアダイアログ(AVSD)ベンチマークで有望なパフォーマンスの向上を達成し、ビデオとダイアログのコンテキストを接地する際のアプローチの利点を示しました。
Video-grounded dialogue systems aim to integrate video understanding and dialogue understanding to generate responses that are relevant to both the dialogue and video context. Most existing approaches employ deep learning models and have achieved remarkable performance, given the relatively small datasets available. However, the results are partly accomplished by exploiting biases in the datasets rather than developing multimodal reasoning, resulting in limited generalization. In this paper, we propose a novel approach of Compositional Counterfactual Contrastive Learning (C^3) to develop contrastive training between factual and counterfactual samples in video-grounded dialogues. Specifically, we design factual/counterfactual sampling based on the temporal steps in videos and tokens in dialogues and propose contrastive loss functions that exploit object-level or action-level variance. Different from prior approaches, we focus on contrastive hidden state representations among compositional output tokens to optimize the representation space in a generation setting. We achieved promising performance gains on the Audio-Visual Scene-Aware Dialogues (AVSD) benchmark and showed the benefits of our approach in grounding video and dialogue context.
updated: Wed Jun 16 2021 16:05:27 GMT+0000 (UTC)
published: Wed Jun 16 2021 16:05:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト