arXiv reaDer
対照的な自己教師あり表現によるドメイン固有の知覚メトリック: 自然および医療画像への応用
A Domain-specific Perceptual Metric via Contrastive Self-supervised Representation: Applications on Natural and Medical Images
2 つの画像の知覚的類似性を定量化することは、低レベルのコンピューター ビジョンにおける長年の問題です。自然画像ドメインは、通常、潜在表現を取得するために、事前トレーニング済みの VGG などの教師あり学習に依存しています。ただし、ドメイン シフトにより、自然画像ドメインの事前トレーニング済みモデルは、医療画像などの他の画像ドメインには適用されない場合があります。特に、医用画像では、知覚的類似性の評価は、さまざまな医療分野で広く訓練された専門家によってのみ行われます。したがって、医用画像は、タスク固有の客観的な知覚手段を欠いているままです。この研究は、「知覚的類似性を測定できる効果的な表現を得るために、教師あり学習に頼る必要があるのか、それとも自己教師で十分なのか?」という質問に答えます。最近の対照的な自己教師あり表現 (CSR) が助けになるかどうかを理解するために、自然なイメージから始めて、多数の現代のアーキテクチャとタスクにわたるメトリックとして CSR を体系的に評価し、それらを既存の方法と比較します。自然画像のドメインでは、CSR は指標としてのいくつかの知覚テストで教師付きのものと同等に動作し、医療のドメインでは、CSR は専門家の評価に関する知覚的類似性をより適切に定量化することがわかりました。また、CSR が 2 つの画像合成タスクで画質を大幅に改善できることも示しています。最後に、私たちの広範な結果は、知覚性がCSRの緊急の特性であり、注釈を必要とせずに多くの画像ドメインに適応できることを示唆しています。
Quantifying the perceptual similarity of two images is a long-standing problem in low-level computer vision. The natural image domain commonly relies on supervised learning, e.g., a pre-trained VGG, to obtain a latent representation. However, due to domain shift, pre-trained models from the natural image domain might not apply to other image domains, such as medical imaging. Notably, in medical imaging, evaluating the perceptual similarity is exclusively performed by specialists trained extensively in diverse medical fields. Thus, medical imaging remains devoid of task-specific, objective perceptual measures. This work answers the question: Is it necessary to rely on supervised learning to obtain an effective representation that could measure perceptual similarity, or is self-supervision sufficient? To understand whether recent contrastive self-supervised representation (CSR) may come to the rescue, we start with natural images and systematically evaluate CSR as a metric across numerous contemporary architectures and tasks and compare them with existing methods. We find that in the natural image domain, CSR behaves on par with the supervised one on several perceptual tests as a metric, and in the medical domain, CSR better quantifies perceptual similarity concerning the experts' ratings. We also demonstrate that CSR can significantly improve image quality in two image synthesis tasks. Finally, our extensive results suggest that perceptuality is an emergent property of CSR, which can be adapted to many image domains without requiring annotations.
updated: Sat Dec 03 2022 08:55:47 GMT+0000 (UTC)
published: Sat Dec 03 2022 08:55:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト