CLIP などの事前トレーニング済み視覚言語モデルは、強力な一般化機能を実証しており、ゼロショット視覚認識の分野で有望なツールとなっています。視覚的関係検出 (VRD) は、画像内のオブジェクトのペア間の関係 (または相互作用) のタイプを識別する一般的なタスクです。ただし、ゼロショット VRD の一般的なクラスベース プロンプトで CLIP を単純に利用することには、いくつかの弱点があります。たとえば、異なるきめの細かいリレーション タイプを区別するのに苦労し、2 つのオブジェクトの重要な空間情報が無視されます。この目的を達成するために、ゼロショット VRD の新しい方法である RECODE を提案します。これは、COMposite DEscription プロンプトを介して RElation 検出を解決します。具体的には、RECODE はまず各述語カテゴリを主語、目的語、および空間コンポーネントに分解します。次に、大規模言語モデル (LLM) を利用して、各コンポーネントの説明ベースのプロンプト (または視覚的な手がかり) を生成します。さまざまな視覚的手がかりにより、さまざまな視点からの同様の関係カテゴリの識別性が向上し、VRD のパフォーマンスが大幅に向上します。さまざまな手がかりを動的に融合するために、LLM にさまざまな視覚的手がかりに対して適切な重みを生成するように促す思考連鎖手法をさらに導入します。 4 つの VRD ベンチマークに関する広範な実験により、RECODE の有効性と解釈可能性が実証されました。
Pretrained vision-language models, such as CLIP, have demonstrated strong generalization capabilities, making them promising tools in the realm of zero-shot visual recognition. Visual relation detection (VRD) is a typical task that identifies relationship (or interaction) types between object pairs within an image. However, naively utilizing CLIP with prevalent class-based prompts for zero-shot VRD has several weaknesses, e.g., it struggles to distinguish between different fine-grained relation types and it neglects essential spatial information of two objects. To this end, we propose a novel method for zero-shot VRD: RECODE, which solves RElation detection via COmposite DEscription prompts. Specifically, RECODE first decomposes each predicate category into subject, object, and spatial components. Then, it leverages large language models (LLMs) to generate description-based prompts (or visual cues) for each component. Different visual cues enhance the discriminability of similar relation categories from different perspectives, which significantly boosts performance in VRD. To dynamically fuse different cues, we further introduce a chain-of-thought method that prompts LLMs to generate reasonable weights for different visual cues. Extensive experiments on four VRD benchmarks have demonstrated the effectiveness and interpretability of RECODE.