arXiv reaDer
画像段落キャプションのための階層的意味トピックへの視覚的特徴のマッチング
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning
画像のセットとそれに対応する段落キャプションを観察することは、画像の視覚的コンテンツを説明するために意味的に一貫した段落を作成する方法を学ぶことです。セマンティックトピックをこのタスクに統合する最近の成功に触発されて、このペーパーは、プラグアンドプレイの階層トピックガイド付き画像段落生成フレームワークを開発します。これは、視覚抽出器と深いトピックモデルを組み合わせて、言語モデルの学習をガイドします。複数の抽象化レベルで画像とテキストの相関関係をキャプチャし、画像からセマンティックトピックを学習するために、変分推論ネットワークを設計して、画像の特徴からテキストのキャプションへのマッピングを構築します。段落の生成をガイドするために、学習した階層トピックと視覚的機能が、長短期記憶(LSTM)やTransformerなどの言語モデルに統合され、共同で最適化されます。公開データセットでの実験は、標準的な評価指標の点で多くの最先端のアプローチと競合する提案されたモデルを使用して、解釈可能な多層トピックを抽出し、多様で一貫性のあるキャプションを生成できることを示しています。
Observing a set of images and their corresponding paragraph-captions, a challenging task is to learn how to produce a semantically coherent paragraph to describe the visual content of an image. Inspired by recent successes in integrating semantic topics into this task, this paper develops a plug-and-play hierarchical-topic-guided image paragraph generation framework, which couples a visual extractor with a deep topic model to guide the learning of a language model. To capture the correlations between the image and text at multiple levels of abstraction and learn the semantic topics from images, we design a variational inference network to build the mapping from image features to textual captions. To guide the paragraph generation, the learned hierarchical topics and visual features are integrated into the language model, including Long Short-Term Memory (LSTM) and Transformer, and jointly optimized. Experiments on public dataset demonstrate that the proposed models, which are competitive with many state-of-the-art approaches in terms of standard evaluation metrics, can be used to both distill interpretable multi-layer topics and generate diverse and coherent captions.
updated: Mon May 10 2021 06:55:39 GMT+0000 (UTC)
published: Mon May 10 2021 06:55:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト