様式化されたビジュアルキャプションは、特定のスタイルで画像またはビデオの説明を生成し、より魅力的で感情的に適切なものにすることを目的としています。このタスクの大きな課題の 1 つは、ビジュアル コンテンツのペアの様式化されたキャプションが欠如していることです。そのため、既存の作品のほとんどは、並列データセットに依存しない教師なし手法に焦点を当てています。ただし、これらのアプローチでは、スタイル ラベルを持つ十分なサンプルを使用してトレーニングする必要があり、生成されるキャプションは事前定義されたスタイルに限定されます。これらの制限に対処するために、Few-Shot Stylized Visual Captioning の問題を調査します。これは、さらなるトレーニングを必要とせず、推論中のガイダンスとして少数の例のみを使用して、任意の希望のスタイルでキャプションを生成することを目的としています。このタスクのために、条件付きエンコーダ/デコーダ言語モデルと視覚投影モジュールを利用する FS-StyleCap と呼ばれるフレームワークを提案します。私たちの 2 段階のトレーニング スキームは次のように進行します。まず、ラベルのないテキストのみのコーパス上でスタイル表現を生成するためにスタイル エクストラクターをトレーニングします。次に、エクストラクターをフリーズし、デコーダーが抽出されたスタイル ベクトルと投影されたビジュアル コンテンツ ベクトルに基づいて様式化された説明を生成できるようにします。推論中に、モデルはユーザーが指定した例からスタイル表現を導出することで、目的の様式化されたキャプションを生成できます。数ショットの感傷的なビジュアルキャプションの自動評価結果は、最先端のアプローチを上回り、ラベル付きスタイルコーパスで完全にトレーニングされたモデルに匹敵します。人間による評価により、モデルが複数のスタイルを処理できることがさらに確認されています。
Stylized visual captioning aims to generate image or video descriptions with specific styles, making them more attractive and emotionally appropriate. One major challenge with this task is the lack of paired stylized captions for visual content, so most existing works focus on unsupervised methods that do not rely on parallel datasets. However, these approaches still require training with sufficient examples that have style labels, and the generated captions are limited to predefined styles. To address these limitations, we explore the problem of Few-Shot Stylized Visual Captioning, which aims to generate captions in any desired style, using only a few examples as guidance during inference, without requiring further training. We propose a framework called FS-StyleCap for this task, which utilizes a conditional encoder-decoder language model and a visual projection module. Our two-step training scheme proceeds as follows: first, we train a style extractor to generate style representations on an unlabeled text-only corpus. Then, we freeze the extractor and enable our decoder to generate stylized descriptions based on the extracted style vector and projected visual content vectors. During inference, our model can generate desired stylized captions by deriving the style representation from user-supplied examples. Our automatic evaluation results for few-shot sentimental visual captioning outperform state-of-the-art approaches and are comparable to models that are fully trained on labeled style corpora. Human evaluations further confirm our model s ability to handle multiple styles.