最近の研究では、複数の言語から根拠のある文章表現を共同で学習することの利点が強調されています。ただし、これらの研究で使用されるデータは、複数の言語の文章で注釈が付けられた同じ画像に合わせたシナリオに限定されています。キャプションデータセットである多言語画像の画像間に重複がない、より現実的なばらばらのシナリオに焦点を当てます。画像と文の検索パフォーマンスで測定されるように、整列されたデータを使用したトレーニングは、ばらばらのデータを使用したトレーニングよりも優れた根拠のある文表現になることを確認します。パフォーマンスのこのギャップを埋めるために、我々は、互いに素な集合から合成的に整列された英語-ドイツ語-イメージトリプレットを生成するための擬似ペアリング法を提案します。この方法は、最初に素なデータでモデルをトレーニングし、次に学習したモデルの下で文の類似性を使用してデータセット全体に新しいトリプルを作成することで機能します。実験では、外部データやモデルを必要としないにもかかわらず、疑似ペアがイメージを改善することが示されています。ただし、外部機械翻訳モデルを使用して合成データセットを生成すると、パフォーマンスが向上することがわかります。
Recent work has highlighted the advantage of jointly learning grounded sentence representations from multiple languages. However, the data used in these studies has been limited to an aligned scenario: the same images annotated with sentences in multiple languages. We focus on the more realistic disjoint scenario in which there is no overlap between the images in multilingual image--caption datasets. We confirm that training with aligned data results in better grounded sentence representations than training with disjoint data, as measured by image--sentence retrieval performance. In order to close this gap in performance, we propose a pseudopairing method to generate synthetically aligned English--German--image triplets from the disjoint sets. The method works by first training a model on the disjoint data, and then creating new triples across datasets using sentence similarity under the learned model. Experiments show that pseudopairs improve image--sentence retrieval performance compared to disjoint training, despite requiring no external data or models. However, we do find that using an external machine translation model to generate the synthetic data sets results in better performance.