arXiv reaDer
ユニバーサルキャプション:視覚と言語モデルのトレーニングでコンテンツスタイルの分離を誘導する
Universal Captioner: Inducing Content-Style Separation in Vision-and-Language Model Training
キャプションモデルは、自然な画像を説明する上で説得力のある結果を得ていますが、現実世界の概念を処理する能力を高めるための取り組みが増えています。このホワイトペーパーでは、人間と自動的に収集されたキャプションの両方を含む、データソースの不均一な組み合わせについてトレーニングすることにより、流暢な説明を生成するタスクに取り組みます。この目的のために、我々は、大規模なマルチモーダルモデルから抽出された文体パラメータとキーワードを重要なデータとして組み込むことにより、コンテンツと記述スタイルの分離を誘発するモデルを提案します。視覚的特徴に関して、私たちのモデルは、オブジェクト検出器の必要性を回避し、迅速な言語モデリングの単一の目的とともにグリッドのような特徴を採用しています。実験的に、キャプションの品質とドメイン外の概念を記述する機能の点で、既存の方法を一貫して上回っています。最後に、私たちのモデルは、COCOとnocapsの両方で新しい最先端技術を取得します。
While captioning models have obtained compelling results in describing natural images, there is a growing effort to increase their capability of dealing with real-world concepts. In this paper, we address the task of generating fluent descriptions by training on a non-uniform combination of data sources, containing both human- and automatically-collected captions. To this end, we propose a model which induces a separation between content and descriptive style through the incorporation of stylistic parameters and keywords extracted from large-scale multi-modal models as pivotal data. In terms of visual features, our model avoids the need of object detectors and employs grid-like features together with a single objective of prompt language modeling. Experimentally, we consistently outperform existing methods in terms of caption quality and capability of describing out-of-domain concepts. Finally, our model obtains a new state of the art on both COCO and nocaps.
updated: Tue Mar 29 2022 12:07:47 GMT+0000 (UTC)
published: Wed Nov 24 2021 19:00:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト