arXiv reaDer
RISCLIP: CLIP を使用した画像セグメンテーション フレームワークの参照
RISCLIP: Referring Image Segmentation Framework using CLIP
コンピュータ ビジョンと自然言語処理の最近の進歩により、当然のことながら、参照画像セグメンテーション (RIS) を含むマルチモーダル タスクの活発な研究が行われるようになりました。最近のアプローチは、RIS の最前線を目覚ましい進歩を遂げていますが、最先端のパフォーマンスを達成するには、外部の視覚的グラウンディング データセットでの追加の事前トレーニング ステージが必要です。私たちは、対照的言語画像事前トレーニング (CLIP) を RIS に効果的に適応させることで、この要件から解放されることを試みます。我々は、凍結された CLIP 機能を Fusion アダプタとバックボーン アダプタを使用して RIS に残留させる新しいフレームワークを提案します。 CLIP をフリーズすると、バックボーンの豊富な一般的な画像とテキストの位置合わせの知識が保持されますが、Fusion アダプタはマルチモーダル通信を導入し、バックボーン アダプタは RIS の解決に役立つ新しい知識を注入します。私たちの手法は、3 つの主要な RIS ベンチマークにおいて新しい最先端に達しています。追加の事前トレーニングを行わずにこのようなパフォーマンスを達成できるため、追加のトレーニングやデータ準備の必要性がなくなりました。ソース コードとモデルの重みは、公開され次第利用可能になります。
Recent advances in computer vision and natural language processing have naturally led to active research in multi-modal tasks, including Referring Image Segmentation (RIS). Recent approaches have advanced the frontier of RIS by impressive margins, but they require an additional pretraining stage on external visual grounding datasets to achieve the state-of-the-art performances. We attempt to break free from this requirement by effectively adapting Contrastive Language-Image Pretraining (CLIP) to RIS. We propose a novel framework that residually adapts frozen CLIP features to RIS with Fusion Adapters and Backbone Adapters. Freezing CLIP preserves the backbone's rich, general image-text alignment knowledge, whilst Fusion Adapters introduce multi-modal communication and Backbone Adapters inject new knowledge useful in solving RIS. Our method reaches a new state of the art on three major RIS benchmarks. We attain such performance without additional pretraining and thereby absolve the necessity of extra training and data preparation. Source code and model weights will be available upon publication.
updated: Wed Jun 14 2023 13:27:28 GMT+0000 (UTC)
published: Wed Jun 14 2023 13:27:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト