arXiv reaDer
双曲線的な画像とテキストの表現
Hyperbolic Image-Text Representations
視覚的および言語的概念は自然に階層構造に編成され、テキスト概念「犬」には犬を含むすべての画像が含まれます。 CLIP などの現在の大規模なビジョンおよび言語モデルは、直感的であるにもかかわらず、そのような階層を明示的に捉えていません。私たちは、画像とテキストの双曲線表現を生み出す対照モデルである MERU を提案します。双曲空間にはツリー状のデータを埋め込むのに適した幾何学的特性があるため、MERU は画像テキスト データセットの基礎となる階層をより適切にキャプチャできます。私たちの結果は、MERU が、画像分類や画像テキスト検索などの標準的なマルチモーダル タスクにおいて CLIP のパフォーマンスと競合しながら、高度に解釈可能で構造化された表現空間を学習することを示しています。
Visual and linguistic concepts naturally organize themselves in a hierarchy, where a textual concept "dog" entails all images that contain dogs. Despite being intuitive, current large-scale vision and language models such as CLIP do not explicitly capture such hierarchy. We propose MERU, a contrastive model that yields hyperbolic representations of images and text. Hyperbolic spaces have suitable geometric properties to embed tree-like data, so MERU can better capture the underlying hierarchy in image-text datasets. Our results show that MERU learns a highly interpretable and structured representation space while being competitive with CLIP's performance on standard multi-modal tasks like image classification and image-text retrieval.
updated: Tue Jun 06 2023 00:33:42 GMT+0000 (UTC)
published: Tue Apr 18 2023 17:59:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト