arXiv reaDer
きめ細かな検索プロンプトのチューニング
Fine-grained Retrieval Prompt Tuning
細粒度オブジェクト検索は、識別表現を学習して、視覚的に類似したオブジェクトを検索することを目的としています。ただし、既存の最高のパフォーマンスを発揮する作品は、通常、セマンティック埋め込みスペースにペアワイズ類似性を課すか、ローカリゼーション サブネットワークを設計して、限定されたデータ体制でモデル全体を継続的に微調整するため、次善のソリューションに簡単に収束します。サンプルプロンプトと機能適応の観点から、きめの細かい検索タスクを実行するために、凍結された事前トレーニング済みモデルを操縦するきめの細かい検索プロンプトチューニング(FRPT)を開発します。具体的には、FRPT は、モデル全体を微調整するのではなく、プロンプトと適応でより少ないパラメーターを学習するだけでよく、モデル全体を微調整することによって引き起こされる次善のソリューションへの収束を解決します。技術的には、判別摂動プロンプト (DPP) が導入されます。サンプル プロンプト プロセスと見なされます。これは、コンテンツを認識する不均一なサンプリング操作を介してカテゴリ予測に寄与するいくつかの識別要素を増幅し、誇張することさえあります。このようにして、DPP は摂動プロンプトによって支援されるきめの細かい検索タスクを、元の事前トレーニング中にタスクを解決し、入力サンプルから抽出された表現の一般化と識別を維持します。さらに、カテゴリ固有の認識ヘッドが提案され、機能適応と見なされます。これにより、事前トレーニングによって抽出された機能の種の不一致が除去されますカテゴリガイドのインスタンス正規化を使用してトレーニングされたモデル、したがって最適化された機能をオンにしますy サブカテゴリ間の不一致を含めます。広範な実験により、学習可能なパラメーターが少ない FRPT が、広く使用されている 3 つのきめの細かいデータセットで最先端のパフォーマンスを達成することが実証されています。
Fine-grained object retrieval aims to learn discriminative representation to retrieve visually similar objects. However, existing top-performing works usually impose pairwise similarities on the semantic embedding spaces or design a localization sub-network to continually fine-tune the entire model in limited-data regimes, thus resulting in easily converging to suboptimal solutions.In this paper, we develop Fine-grained Retrieval Prompt Tuning (FRPT), which steers a frozen pre-trained model to perform the fine-grained retrieval task from the perspectives of sample prompt and feature adaptation. Specifically, FRPT only needs to learn fewer parameters in the prompt and adaptation instead of fine-tuning the entire model, thus solving the convergence to suboptimal solutions caused by fine-tuning the entire model.Technically, a discirmiantive perturbation prompt (DPP) is introduced and deemed as a sample prompt process, which amplifies and even exaggerates some discriminative elements contributing to category prediction via a content-aware inhomogeneous sampling operation.In this way, DPP can make the fine-grained retrieval task aided by the perturbation prompts close to the solved task during the original pre-training, thus preserving the generalization and discrimination of representation extracted from input samples.Besides, a category-specific awareness head is proposed and regarded as feature adaptation, which removes the species discrepancies in features extracted by the pre-trained model using category-guided instance normalization, and thus makes the optimized features only include the discrepancies among subcategories.Extensive experiments demonstrate that our FRPT with fewer learnable parameters achieves the state-of-the-art performance on three widely-used fine-grained datasets.
updated: Mon Nov 21 2022 08:40:26 GMT+0000 (UTC)
published: Fri Jul 29 2022 04:10:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト