Contrastive Language-Image Pre-training (CLIP) は、優れた伝達性を備えた視覚的表現を学習することが示されています。これにより、ゼロショット分類の有望な精度が達成されます。ダウンストリームのパフォーマンスをさらに向上させるために、既存の作品では、CLIP で追加の学習可能なモジュールを提案し、少数ショットのトレーニング セットによってそれらを微調整します。ただし、結果として生じる追加のトレーニング コストとデータ要件により、モデルの展開と知識の伝達の効率が大幅に低下します。このホワイトペーパーでは、パラメーターフリーのAttentionモジュールを介してCLIPのゼロショットパフォーマンスを向上させるために、フリーランチ拡張メソッドであるCALIPを紹介します。具体的には、視覚的表現とテキスト表現が互いに相互作用し、注意を介してクロスモーダルな有益な機能を探索するように導きます。事前トレーニングにより 2 つのモダリティ間の埋め込み距離が大幅に短縮されたため、アテンションで学習可能なすべてのパラメーターを破棄し、マルチモーダル機能を双方向に更新して、プロセス全体をパラメーターフリーかつトレーニングフリーにすることができます。このようにして、画像がテキスト認識信号とブレンドされ、テキスト表現が視覚的に誘導されて、適応性のあるゼロ ショット アラインメントが改善されます。 2D 画像と 3D 点群の少数ショット分類の両方について、14 のデータセットのさまざまなベンチマークで CALIP を評価し、CLIP より一貫してゼロショットのパフォーマンスが向上していることを示しています。それに基づいて、CALIP のアテンション モジュールに少数の線形レイヤーをさらに挿入し、少数ショット設定での堅牢性を検証します。これも、既存の方法と比較して優れたパフォーマンスを実現します。これらの広範な実験は、CLIP を効率的に強化するためのアプローチの優位性を示しています。
Contrastive Language-Image Pre-training (CLIP) has been shown to learn visual representations with great transferability, which achieves promising accuracy for zero-shot classification. To further improve its downstream performance, existing works propose additional learnable modules upon CLIP and fine-tune them by few-shot training sets. However, the resulting extra training cost and data requirement severely hinder the efficiency for model deployment and knowledge transfer. In this paper, we introduce a free-lunch enhancement method, CALIP, to boost CLIP's zero-shot performance via a parameter-free Attention module. Specifically, we guide visual and textual representations to interact with each other and explore cross-modal informative features via attention. As the pre-training has largely reduced the embedding distances between two modalities, we discard all learnable parameters in the attention and bidirectionally update the multi-modal features, enabling the whole process to be parameter-free and training-free. In this way, the images are blended with textual-aware signals and the text representations become visual-guided for better adaptive zero-shot alignment. We evaluate CALIP on various benchmarks of 14 datasets for both 2D image and 3D point cloud few-shot classification, showing consistent zero-shot performance improvement over CLIP. Based on that, we further insert a small number of linear layers in CALIP's attention module and verify our robustness under the few-shot settings, which also achieves leading performance compared to existing methods. Those extensive experiments demonstrate the superiority of our approach for efficient enhancement of CLIP.