オープン語彙モデルは、画像分類の新しいパラダイムとして有望です。従来の分類モデルとは異なり、オープン語彙モデルは、推論中に自然言語で指定された任意のカテゴリのセットを分類します。 「プロンプト」と呼ばれるこの自然言語は、通常、各カテゴリ名が完成した一連の手書きのテンプレート (例: 「{} の写真」) で構成されます。この研究では、タスク ドメインの明示的な知識に依存せず、手作業で作成する文章を大幅に減らして、より精度の高いプロンプトを生成する簡単な方法を導入しています。これを実現するために、オープン語彙モデルと大規模言語モデル (LLM) を組み合わせて、言語モデル (CuPL、「カップル」と発音) によるカスタマイズされたプロンプトを作成します。特に、LLM に含まれる知識を活用して、画像カテゴリの重要な識別特性を含む多くの説明文を生成します。これにより、モデルは予測を行う際に画像内のこれらの領域をより重要視することができます。この単純かつ一般的なアプローチにより、ImageNet で 1 パーセントを超えるゲインを含む、一連のゼロショット画像分類ベンチマークの精度が向上することがわかりました。最後に、このシンプルなベースラインには追加のトレーニングは必要なく、完全にゼロショットのままです。コードは https://github.com/sarahpratt/CuPL で入手できます。
Open-vocabulary models are a promising new paradigm for image classification. Unlike traditional classification models, open-vocabulary models classify among any arbitrary set of categories specified with natural language during inference. This natural language, called "prompts", typically consists of a set of hand-written templates (e.g., "a photo of a {}") which are completed with each of the category names. This work introduces a simple method to generate higher accuracy prompts, without relying on any explicit knowledge of the task domain and with far fewer hand-constructed sentences. To achieve this, we combine open-vocabulary models with large language models (LLMs) to create Customized Prompts via Language models (CuPL, pronounced "couple"). In particular, we leverage the knowledge contained in LLMs in order to generate many descriptive sentences that contain important discriminating characteristics of the image categories. This allows the model to place a greater importance on these regions in the image when making predictions. We find that this straightforward and general approach improves accuracy on a range of zero-shot image classification benchmarks, including over one percentage point gain on ImageNet. Finally, this simple baseline requires no additional training and remains completely zero-shot. Code available at https://github.com/sarahpratt/CuPL.