インスタント メッセージで画像を共有することは重要な要素であるため、画像とテキストのマルチモーダル対話モデルを学習する研究が活発に行われています。ただし、既存のマルチモーダル ダイアログ データセットには少数のデータ、限られたトピック、およびダイアログごとの限られた種類の画像が含まれているため、十分に一般化されたマルチモーダル ダイアログ モデルをトレーニングすることは困難です。このホワイト ペーパーでは、CLIP の類似性に基づいて大規模な画像を対話に一致させることを含む、マルチモーダル対話データセット作成パイプラインを提示します。この自動パイプラインを使用して、大規模なマルチモーダル対話データセット DialogCC を提案します。DialogCC は、対話ごとにさまざまな現実世界のトピックとさまざまな画像をカバーします。広範な実験により、データセットを使用してマルチモーダル対話モデルをトレーニングすると、一般化のパフォーマンスが向上することが実証されました。さらに、当社のデータセットでトレーニングされた既存のモデルは、画像とテキストの検索タスクで最先端のパフォーマンスを実現します。ソース コードとデータセットは公開後に公開されます。
As sharing images in an instant message is a crucial factor, there has been active research on learning a image-text multi-modal dialogue model. However, training a well-generalized multi-modal dialogue model is challenging because existing multi-modal dialogue datasets contain a small number of data, limited topics, and a restricted variety of images per dialogue. In this paper, we present a multi-modal dialogue dataset creation pipeline that involves matching large-scale images to dialogues based on CLIP similarity. Using this automatic pipeline, we propose a large-scale multi-modal dialogue dataset, DialogCC, which covers diverse real-world topics and various images per dialogue. With extensive experiments, we demonstrate that training a multi-modal dialogue model with our dataset can improve generalization performance. Additionally, existing models trained with our dataset achieve state-of-the-art performance on image and text retrieval tasks. The source code and the dataset will be released after publication.