arXiv reaDer
ClipCrop: 視覚言語モデルによる条件付きクロッピング
ClipCrop: Conditioned Cropping Driven by Vision-Language Model
画像のトリミングは、データ駆動型のパラダイムの下で飛躍的に進歩しました。しかし、現在のアプローチでは、ユーザーの意図が考慮されていません。これは、特に入力画像の構成が複雑な場合に問題となります。さらに、クロッピングデータのラベル付けにはコストがかかるため、データ量が制限され、現在のアルゴリズムの一般化パフォーマンスが低下します。この作業では、堅牢でユーザーが意図したクロッピング アルゴリズムを作成するための基盤として、視覚言語モデルを利用します。あらかじめトレーニングされた CLIP ベースの検出モデルである OWL-ViT を使用してトランスフォーマー デコーダーを適応させることにより、ユーザーの意図をガイダンスとして反映するテキストまたは画像クエリを使用してクロッピングを実行する方法を開発します。さらに、私たちのパイプライン設計により、モデルは、数百万のテキストと画像のペアから取得したオープン語彙能力を継承しながら、小さなクロッピング データセットを使用してテキスト条件付きの審美的なクロッピングを学習できます。既存のデータセットでの広範な実験と、コンテンツのあいまいさによって特徴付けられる新しいクロッピング テスト セットをコンパイルして、モデルを検証します。
Image cropping has progressed tremendously under the data-driven paradigm. However, current approaches do not account for the intentions of the user, which is an issue especially when the composition of the input image is complex. Moreover, labeling of cropping data is costly and hence the amount of data is limited, leading to poor generalization performance of current algorithms in the wild. In this work, we take advantage of vision-language models as a foundation for creating robust and user-intentional cropping algorithms. By adapting a transformer decoder with a pre-trained CLIP-based detection model, OWL-ViT, we develop a method to perform cropping with a text or image query that reflects the user's intention as guidance. In addition, our pipeline design allows the model to learn text-conditioned aesthetic cropping with a small cropping dataset, while inheriting the open-vocabulary ability acquired from millions of text-image pairs. We validate our model through extensive experiments on existing datasets as well as a new cropping test set we compiled that is characterized by content ambiguity.
updated: Mon Nov 21 2022 14:27:07 GMT+0000 (UTC)
published: Mon Nov 21 2022 14:27:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト