ビデオフレームと他の視聴者のコメントの両方を入力として使用してリアルタイムビデオコメントを生成することを目的とする自動ライブビデオコメント(ALVC)のタスクに焦点を当てます。このタスクの主な課題は、ビデオとテキストによって運ばれる豊富で多様な情報を適切に活用する方法です。このペーパーでは、有益なコメント生成のために、ビデオとテキストから多様な情報を収集することを目指しています。これを達成するために、我々はこのタスクのための多様化共注意(DCA)モデルを提案します。私たちのモデルは、メトリック学習を介して複数の視点からビデオフレームと周囲のコメント間の双方向の相互作用を構築し、コメント生成のための多様で有益なコンテキストを収集します。また、異なる視点から学習した情報の過度の重複を回避するための効果的なパラメータ直交化手法を提案します。結果は、私たちのアプローチがALVCタスクの既存の方法よりも優れており、新しい最先端の結果を達成していることを示しています。
We focus on the task of Automatic Live Video Commenting (ALVC), which aims to generate real-time video comments with both video frames and other viewers' comments as inputs. A major challenge in this task is how to properly leverage the rich and diverse information carried by video and text. In this paper, we aim to collect diversified information from video and text for informative comment generation. To achieve this, we propose a Diversified Co-Attention (DCA) model for this task. Our model builds bidirectional interactions between video frames and surrounding comments from multiple perspectives via metric learning, to collect a diversified and informative context for comment generation. We also propose an effective parameter orthogonalization technique to avoid excessive overlap of information learned from different perspectives. Results show that our approach outperforms existing methods in the ALVC task, achieving new state-of-the-art results.