arXiv reaDer
多様な画像キャプション中の意図をモデル化するための順次潜在空間
Sequential Latent Spaces for Modeling the Intention During Diverse Image Captioning
多様で正確なビジョンと言語のモデリングは、創造的な自由を維持し、ユーザーエンゲージメントを維持するための重要な目標です。ただし、言語モデルの多様性の複雑さを適切に把握することは困難です。最近の作品は、一般に、オブジェクト検出器または品詞タグからの多かれ少なかれの監督で強化された潜在変数モデルに頼っています。これらのすべてのメソッドに共通するのは、潜在変数が文生成プロセスを初期化するだけであるか、生成ステップ全体で同一であるという事実です。どちらの方法も、きめ細かい制御を提供しません。この懸念に対処するために、すべての単語位置の潜在空間を学習するSeq-CVAEを提案します。この時間的潜在空間は、未来を要約する表現を模倣することにより、文を完成させる方法についての「意図」を捉えることを奨励します。困難なMSCOCOデータセットでの文の継続を予測するための提案されたアプローチの有効性を示し、パーw.r.t文の品質で実行しながら、ベースラインと比較して多様性メトリックを大幅に改善します。
Diverse and accurate vision+language modeling is an important goal to retain creative freedom and maintain user engagement. However, adequately capturing the intricacies of diversity in language models is challenging. Recent works commonly resort to latent variable models augmented with more or less supervision from object detectors or part-of-speech tags. Common to all those methods is the fact that the latent variable either only initializes the sentence generation process or is identical across the steps of generation. Both methods offer no fine-grained control. To address this concern, we propose Seq-CVAE which learns a latent space for every word position. We encourage this temporal latent space to capture the 'intention' about how to complete the sentence by mimicking a representation which summarizes the future. We illustrate the efficacy of the proposed approach to anticipate the sentence continuation on the challenging MSCOCO dataset, significantly improving diversity metrics compared to baselines while performing on par w.r.t sentence quality.
updated: Thu Aug 22 2019 17:59:08 GMT+0000 (UTC)
published: Thu Aug 22 2019 17:59:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト