arXiv reaDer
ミュール:マルチモーダルユニバーサル言語の埋め込み
MULE: Multimodal Universal Language Embedding
 既存のビジョン言語メソッドは、通常、一度に2つの言語をサポートします。このホワイトペーパーでは、多くの言語をサポートするために、既存のビジョン言語メソッドに簡単に組み込むことができるモジュール式アプローチを紹介します。これは、すべての言語にわたって視覚的に意味論的に整合された単一の共有マルチモーダルユニバーサル言語埋め込み(MULE)を学習することで達成されます。次に、MULEを視覚データに単一の言語であるかのように関連付ける方法を学びます。私たちの方法はアーキテクチャ特有ではありません。通常、言語ごとに別々のブランチを学習した従来の作業とは異なり、多くの視覚言語の方法とタスクにアプローチを簡単に適合させることができます。 MULEはマルチモーダルモデルで単一の言語ブランチを学習するため、多くの言語をサポートするようにスケーリングすることもでき、注釈の少ない言語は他の(より豊富な)言語データから学習した優れた表現を活用できます。単一のモデルで最大4つの言語をサポートする、双方向画像文検索タスクでのMULEの有効性を実証します。さらに、機械翻訳を多言語学習のデータ増強に使用できることを示します。これにより、MULEと組み合わせると、単一言語での平均想起が以前の作業と比較して最大21.9%向上し、言語で最も顕著な向上が見られます注釈が比較的少ない。私たちのコードは公開されています。
Existing vision-language methods typically support two languages at a time at most. In this paper, we present a modular approach which can easily be incorporated into existing vision-language methods in order to support many languages. We accomplish this by learning a single shared Multimodal Universal Language Embedding (MULE) which has been visually-semantically aligned across all languages. Then we learn to relate MULE to visual data as if it were a single language. Our method is not architecture specific, unlike prior work which typically learned separate branches for each language, enabling our approach to easily be adapted to many vision-language methods and tasks. Since MULE learns a single language branch in the multimodal model, we can also scale to support many languages, and languages with fewer annotations can take advantage of the good representation learned from other (more abundant) language data. We demonstrate the effectiveness of MULE on the bidirectional image-sentence retrieval task, supporting up to four languages in a single model. In addition, we show that Machine Translation can be used for data augmentation in multilingual learning, which, combined with MULE, improves mean recall by up to 21.9% on a single-language compared to prior work, with the most significant gains seen on languages with relatively few annotations. Our code is publicly available.
updated: Sat Dec 28 2019 21:57:10 GMT+0000 (UTC)
published: Sun Sep 08 2019 16:08:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト