arXiv reaDer
CLIP4IDC:画像差分キャプションのCLIP
CLIP4IDC: CLIP for Image Difference Captioning
Image Difference Captioning(IDC)は、2つの似たような画像の違いを説明する文を生成することを目的としています。従来のアプローチは、オフラインで抽出された視覚的特徴のキャプションモデルを学習し、その学習は、画像分類データセットで事前にトレーニングされた固定特徴抽出器に伝播することはできません。したがって、潜在的な改善は、1)画像分類でトレーニングされた視覚抽出器をIDCに一般化するときのギャップを狭めること、および2)抽出された視覚的特徴を対応する変更の説明に関連付けることによって視覚的特徴を微調整することによって行うことができます。したがって、これらの改善を達成するために、IDCタスクのCLIPモデルを転送するCLIP4IDCを提案します。 CLIPを直接微調整して文を生成するのとは異なり、タスク固有のドメイン適応を使用して、抽出された特徴を改善します。具体的には、画像ペアを記述された変更に関連付けるために、生のピクセルでCLIPをトレーニングすることが目標です。その後、バニラトランスフォーマーは、CLIPのビジョンエンコーダーによって抽出された機能についてIDC用にトレーニングされます。 3つのIDCベンチマークデータセット、CLEVR-Change、Spot-the-Diff、およびImage-Editing-Requestでの実験は、CLIP4IDCの有効性を示しています。コードとモデルはhttps://github.com/sushizixin/CLIP4IDCでリリースされます。
Image Difference Captioning (IDC) aims at generating sentences to describe the differences between two similar-looking images. The conventional approaches learn captioning models on the offline-extracted visual features and the learning can not be propagated back to the fixed feature extractors pre-trained on image classification datasets. Accordingly, potential improvements can be made by fine-tuning the visual features for: 1) narrowing the gap when generalizing the visual extractor trained on image classification to IDC, and 2) relating the extracted visual features to the descriptions of the corresponding changes. We thus propose CLIP4IDC to transfer a CLIP model for the IDC task to attain these improvements. Different from directly fine-tuning CLIP to generate sentences, a task-specific domain adaptation is used to improve the extracted features. Specifically, the target is to train CLIP on raw pixels to relate the image pairs to the described changes. Afterwards, a vanilla Transformer is trained for IDC on the features extracted by the vision encoder of CLIP. Experiments on three IDC benchmark datasets, CLEVR-Change, Spot-the-Diff and Image-Editing-Request, demonstrate the effectiveness of CLIP4IDC. Our code and models will be released at https://github.com/sushizixin/CLIP4IDC.
updated: Wed Jun 01 2022 17:02:08 GMT+0000 (UTC)
published: Wed Jun 01 2022 17:02:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト