arXiv reaDer
共有マルチモーダル埋め込みによる教師なし画像キャプションに向けて
Towards Unsupervised Image Captioning with Shared Multimodal Embeddings
  明示的な監督なしで画像を理解することは、コンピュータービジョンの重要な問題になっています。この論文では、注釈付きの画像とそのキャプションのペアから学習することなく、シーンの言語記述を生成することにより、画像キャプションに対処します。私たちのアプローチの中核となるコンポーネントは、視覚的な概念によって構造化された共有の潜在空間です。この空間では、2つのモダリティは区別できません。言語モデルは、文を意味的に構造化された埋め込みにエンコードするように最初に訓練されます。この埋め込みスペースに変換される画像機能は、文の埋め込みと同様に、同じ言語モデルを介して説明にデコードできます。この変換は、ノイズの多い割り当てと条件付きの敵対的なコンポーネントに対してロバストな損失を使用して、弱くペアになった画像とテキストから学習されます。私たちのアプローチは、注釈付きの画像/キャプションデータの分布の外にある大きなテキストコーパスを活用することを可能にします。私たちの実験は、提案されたドメインアラインメントが、以前の研究を上回る意味的に意味のある表現を学習することを示しています。
Understanding images without explicit supervision has become an important problem in computer vision. In this paper, we address image captioning by generating language descriptions of scenes without learning from annotated pairs of images and their captions. The core component of our approach is a shared latent space that is structured by visual concepts. In this space, the two modalities should be indistinguishable. A language model is first trained to encode sentences into semantically structured embeddings. Image features that are translated into this embedding space can be decoded into descriptions through the same language model, similarly to sentence embeddings. This translation is learned from weakly paired images and text using a loss robust to noisy assignments and a conditional adversarial component. Our approach allows to exploit large text corpora outside the annotated distributions of image/caption data. Our experiments show that the proposed domain alignment learns a semantically meaningful representation which outperforms previous work.
updated: Sun Aug 25 2019 12:56:41 GMT+0000 (UTC)
published: Sun Aug 25 2019 12:56:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト