画像内の低レベル構造を検出する一般的な問題を検討します。これには、操作された部分のセグメント化、焦点が合っていないピクセルの特定、影領域の分離、および隠されたオブジェクトの検出が含まれます。そのような各トピックは通常、ドメイン固有のソリューションで対処されてきましたが、統一されたアプローチがそれらすべてでうまく機能することを示しています.私たちは、NLP で広く使用されている事前トレーニングとプロンプト チューニング プロトコルから着想を得て、Explicit Visual Prompting (EVP) という名前の新しい視覚的プロンプト モデルを提案します。通常はデータセット レベルの暗黙的な埋め込みである以前の視覚的なプロンプトとは異なり、私たちの重要な洞察は、個々の画像からの明示的な視覚的コンテンツ、つまり、固定されたパッチの埋め込みと入力の高周波からの特徴に焦点を当てた調整可能なパラメーターを適用することです。コンポーネント。提案された EVP は、同量の調整可能なパラメーター (各タスクの 5.7% 余分なトレーニング可能なパラメーター) の下で、他のパラメーター効率の高い調整プロトコルよりも大幅に優れています。また、EVP は、タスク固有のソリューションと比較して、多様な低レベル構造セグメンテーション タスクで最先端のパフォーマンスを実現します。コードは https://github.com/NiFangBaAGe/Explicit-Visual-Prompt で入手できます。
We consider the generic problem of detecting low-level structures in images, which includes segmenting the manipulated parts, identifying out-of-focus pixels, separating shadow regions, and detecting concealed objects. Whereas each such topic has been typically addressed with a domain-specific solution, we show that a unified approach performs well across all of them. We take inspiration from the widely-used pre-training and then prompt tuning protocols in NLP and propose a new visual prompting model, named Explicit Visual Prompting (EVP). Different from the previous visual prompting which is typically a dataset-level implicit embedding, our key insight is to enforce the tunable parameters focusing on the explicit visual content from each individual image, i.e., the features from frozen patch embeddings and the input's high-frequency components. The proposed EVP significantly outperforms other parameter-efficient tuning protocols under the same amount of tunable parameters (5.7% extra trainable parameters of each task). EVP also achieves state-of-the-art performances on diverse low-level structure segmentation tasks compared to task-specific solutions. Our code is available at: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.