この技術レポートでは、CVPR2023 Visual Anomaly and Novelty Detection (VAND) チャレンジで Segment Any Anomaly チームが優勝したソリューションを紹介します。言語プロンプトなどの単一モーダル プロンプトを超えて、カスケードされた最新の基礎モデルの正則化のためのマルチモーダル プロンプトを使用したゼロショット異常セグメンテーションのための新しいフレームワーク、つまり Segment Any Anomaly + (SAA+) を紹介します。 Segment Anything のような基盤モデルの優れたゼロショット一般化機能に触発され、まずそのアセンブリ (SAA) を探索し、異常位置特定のために多様なマルチモーダル事前知識を活用します。続いて、ドメインの専門知識とターゲット画像コンテキストから導き出されたマルチモーダル プロンプト (SAA+) をさらに導入し、基礎モデルの異常セグメンテーションへのノンパラメーター適応を可能にします。提案された SAA+ モデルは、ゼロショット設定で、VisA や MVTec-AD を含むいくつかの異常セグメンテーション ベンチマークで最先端のパフォーマンスを達成します。 CVPR2023 VAND チャレンジの優勝ソリューションのコードを Segment-Any-Anomaly でリリースしますhttps://github.com/caoyunkang/Segment-Any-Anomaly より詳細な拡張バージョンのペーパーは、~cao2023segment で入手できます。
This technical report introduces the winning solution of the team Segment Any Anomaly for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge. Going beyond uni-modal prompt, e.g., language prompt, we present a novel framework, i.e., Segment Any Anomaly + (SAA+), for zero-shot anomaly segmentation with multi-modal prompts for the regularization of cascaded modern foundation models. Inspired by the great zero-shot generalization ability of foundation models like Segment Anything, we first explore their assembly (SAA) to leverage diverse multi-modal prior knowledge for anomaly localization. Subsequently, we further introduce multimodal prompts (SAA+) derived from domain expert knowledge and target image context to enable the non-parameter adaptation of foundation models to anomaly segmentation. The proposed SAA+ model achieves state-of-the-art performance on several anomaly segmentation benchmarks, including VisA and MVTec-AD, in the zero-shot setting. We will release the code of our winning solution for the CVPR2023 VAND challenge at Segment-Any-Anomalyhttps://github.com/caoyunkang/Segment-Any-Anomaly The extended-version paper with more details is available at ~cao2023segment.