Large-scale representation learning from visually grounded untranscribed speech
  画像と音声キャプションを関連付けることができるシステムは、視覚に基づいた言語学習に向けた重要なステップです。画像キャプションデータセット用の多様な音声を自動的に生成するスケーラブルな方法について説明します。これは、オーディオと画像の両方をエンコードするためのディープネットワークの事前トレーニングをサポートします。これは、両方のモダリティからの潜在的な表現の調整を学習するデュアルエンコーダーを介して行います。このようなモデルのマスクマージンソフトマックス損失は、標準のトリプレット損失よりも優れていることを示しています。 Flickr8kオーディオキャプションコーパスでこれらのモデルを微調整し、最新の結果を取得します。トップ10のリコールを29.6%から49.5%に改善しています。また、データに関連付けられていない偶発的に一致する画像とキャプションのペアの影響をよりよく評価するために、検索結果の人間の評価を得て、自動評価が検索結果の品質を大幅に過小評価することを発見しました。
Systems that can associate images with their spoken audio captions are an important step towards visually grounded language learning. We describe a scalable method to automatically generate diverse audio for image captioning datasets. This supports pretraining deep networks for encoding both audio and images, which we do via a dual encoder that learns to align latent representations from both modalities. We show that a masked margin softmax loss for such models is superior to the standard triplet loss. We fine-tune these models on the Flickr8k Audio Captions Corpus and obtain state-of-the-art results---improving recall in the top 10 from 29.6% to 49.5%. We also obtain human ratings on retrieval outputs to better assess the impact of incidentally matching image-caption pairs that were not associated in the data, finding that automatic evaluation substantially underestimates the quality of the retrieved results.
updated: Thu Sep 19 2019 02:50:23 GMT+0000 (UTC)
published: Thu Sep 19 2019 02:50:23 GMT+0000 (UTC)
