arXiv reaDer
E-CLIP: CLIP によるラベル効率の良いイベントベースのオープンワールド理解に向けて
E-CLIP: Towards Label-efficient Event-based Open-world Understanding by CLIP
Contrasting Language-image pertaining (CLIP) は最近、2D 画像ベースの認識タスクにおいてオープンワールドかつ少数ショットのパフォーマンスが期待できることを示しています。ただし、CLIP の新しいイベント カメラ データへの転送機能はまだ研究されていません。特に、画像テキストデータとのモダリティのギャップと大規模なデータセットの欠如により、この目標の達成は簡単ではなく、したがって大幅な研究革新が必要となります。この論文では、大規模なイベントベースのデータセットの不足を補うイベントベースの認識に対する CLIP の可能性を解き放つ、新規かつ効果的なフレームワークである E-CLIP を提案します。私たちの研究は 2 つの重要な課題に取り組んでいます。1) イベントの固有の特性 (スパース性や高い時間解像度など) を十分に活用しながら、CLIP のビジュアル エンコーダをイベント データに一般化する方法。 2) 画像、テキスト、イベントなどのマルチモーダルな埋め込みを効果的に配置する方法。この目的を達成するために、まず、イベントからの時間情報を微妙にモデル化し、同時にモダリティのブリッジングを促進するイベント プロンプトを生成する新しいイベント エンコーダーを導入します。次に、コンテンツ プロンプトを生成し、ハイブリッド テキスト プロンプトを利用して、多様なデータセットにわたる E-CLIP の一般化機能を強化するテキスト エンコーダーを設計します。提案されたイベント エンコーダ、テキスト エンコーダ、および元の画像エンコーダでは、新しい階層トリプル コントラスト アライメント (HTCA) モジュールが導入され、相関関係を共同で最適化し、3 つのモダリティ間の効率的な知識伝達を可能にします。私たちは 2 つの認識ベンチマークで広範な実験を実施し、その結果、微調整とわずかな調整の両方で、N-Caltech データセットに対して E-CLIP が既存の手法をそれぞれ +3.94% および +4.62% という大幅なマージンで上回っていることが実証されました。ショットの設定。さらに、当社の E-CLIP は、テキストまたは画像クエリの両方を使用してイベント検索タスクに柔軟に拡張でき、妥当なパフォーマンスを示します。
Contrasting Language-image pertaining (CLIP) has recently shown promising open-world and few-shot performance on 2D image-based recognition tasks. However, the transferred capability of CLIP to the novel event camera data still remains under-explored. In particular, due to the modality gap with the image-text data and the lack of large-scale datasets, achieving this goal is non-trivial and thus requires significant research innovation. In this paper, we propose E-CLIP, a novel and effective framework that unleashes the potential of CLIP for event-based recognition to compensate for the lack of large-scale event-based datasets. Our work addresses two crucial challenges: 1) how to generalize CLIP's visual encoder to event data while fully leveraging events' unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. To this end, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile generates event prompts to promote the modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance the E-CLIP's generalization ability across diverse datasets. With the proposed event encoder, text encoder, and original image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We conduct extensive experiments on two recognition benchmarks, and the results demonstrate that our E-CLIP outperforms existing methods by a large margin of +3.94% and +4.62% on the N-Caltech dataset, respectively, in both fine-tuning and few-shot settings. Moreover, our E-CLIP can be flexibly extended to the event retrieval task using both text or image queries, showing plausible performance.
updated: Sun Sep 10 2023 14:19:49 GMT+0000 (UTC)
published: Sun Aug 06 2023 15:05:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト