arXiv reaDer
AnoVL: 統合ゼロショット異常位置特定のための視覚言語モデルの適応
AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization
Contrastive Language-Image Pre-training (CLIP) モデルは、自然言語の監視下で視覚表現を学習することにより、ゼロショット視覚認識タスクで有望なパフォーマンスを示しています。最近の研究では、画像を正常および異常な状態プロンプトと照合することにより、CLIP を使用してゼロショット異常検出に取り組むことが試みられています。ただし、CLIP は、ペアになったテキスト プロンプトとグローバルな画像レベルの表現の間の対応関係を構築することに重点を置いているため、テキストの配置に対するパッチレベルのビジョンが欠如しており、視覚的な異常の位置を正確に特定する機能が制限されます。この研究では、ゼロショット異常位置特定のための CLIP のトレーニングフリー適応 (TFA) フレームワークを導入します。ビジュアルエンコーダーでは、パッチレベルのローカル記述のために CLIP の固有ローカルトークンを抽出するトレーニング不要の値に関する注意メカニズムを革新します。テキスト監視の観点から、私たちは特に、統一されたドメイン認識の対照的な状態プロンプト テンプレートを設計します。提案された TFA に加えて、異常位置特定結果を改良するためのテスト時間適応 (TTA) メカニズムをさらに導入します。このメカニズムでは、アダプター内のトレーニング可能なパラメーターのレイヤーが、TFA の疑似ラベルと合成ノイズ破損トークンを使用して最適化されます。 TFA と TTA の両方の適応により、ゼロショット異常位置特定のための CLIP の可能性を大幅に活用し、さまざまなデータセットに対する提案手法の有効性を実証します。
Contrastive Language-Image Pre-training (CLIP) models have shown promising performance on zero-shot visual recognition tasks by learning visual representations under natural language supervision. Recent studies attempt the use of CLIP to tackle zero-shot anomaly detection by matching images with normal and abnormal state prompts. However, since CLIP focuses on building correspondence between paired text prompts and global image-level representations, the lack of patch-level vision to text alignment limits its capability on precise visual anomaly localization. In this work, we introduce a training-free adaptation (TFA) framework of CLIP for zero-shot anomaly localization. In the visual encoder, we innovate a training-free value-wise attention mechanism to extract intrinsic local tokens of CLIP for patch-level local description. From the perspective of text supervision, we particularly design a unified domain-aware contrastive state prompting template. On top of the proposed TFA, we further introduce a test-time adaptation (TTA) mechanism to refine anomaly localization results, where a layer of trainable parameters in the adapter is optimized using TFA's pseudo-labels and synthetic noise-corrupted tokens. With both TFA and TTA adaptation, we significantly exploit the potential of CLIP for zero-shot anomaly localization and demonstrate the effectiveness of our proposed methods on various datasets.
updated: Wed Aug 30 2023 10:35:36 GMT+0000 (UTC)
published: Wed Aug 30 2023 10:35:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト