arXiv reaDer
LoopITR:画像テキスト検索のためのデュアルエンコーダアーキテクチャとクロスエンコーダアーキテクチャの組み合わせ
LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval
デュアルエンコーダーとクロスエンコーダーは、画像テキストの検索に広く使用されています。 2つの間で、デュアルエンコーダーは画像とテキストを個別にエンコードし、その後に内積が続きます。一方、クロスエンコーダーは画像とテキストを入力として共同でフィードし、高密度のマルチモーダル融合を実行します。これらの2つのアーキテクチャは、通常、相互作用なしに別々にモデル化されます。この作業では、共同学習のために同じネットワークでそれらを組み合わせたLoopITRを提案します。具体的には、デュアルエンコーダーにクロスエンコーダーにハードネガを提供させ、より識別力のあるクロスエンコーダーを使用して、予測をデュアルエンコーダーに戻します。両方のステップは、同じモデルで一緒に効率的に実行されます。私たちの仕事は、この複合アーキテクチャの経験的分析に重点を置いており、蒸留目的の設計に主な焦点を当てています。私たちの実験結果は、同じネットワークで2つのエンコーダーをトレーニングすることの利点を強調し、いくつかのハードネガティブな例で蒸留が非常に効果的であることを示しています。 2つの標準データセット(Flickr30KとCOCO)での実験は、同様の量のデータを使用するアプローチと比較した場合、私たちのアプローチが最先端のデュアルエンコーダーパフォーマンスを達成することを示しています。
Dual encoders and cross encoders have been widely used for image-text retrieval. Between the two, the dual encoder encodes the image and text independently followed by a dot product, while the cross encoder jointly feeds image and text as the input and performs dense multi-modal fusion. These two architectures are typically modeled separately without interaction. In this work, we propose LoopITR, which combines them in the same network for joint learning. Specifically, we let the dual encoder provide hard negatives to the cross encoder, and use the more discriminative cross encoder to distill its predictions back to the dual encoder. Both steps are efficiently performed together in the same model. Our work centers on empirical analyses of this combined architecture, putting the main focus on the design of the distillation objective. Our experimental results highlight the benefits of training the two encoders in the same network, and demonstrate that distillation can be quite effective with just a few hard negative examples. Experiments on two standard datasets (Flickr30K and COCO) show our approach achieves state-of-the-art dual encoder performance when compared with approaches using a similar amount of data.
updated: Thu Mar 10 2022 16:41:12 GMT+0000 (UTC)
published: Thu Mar 10 2022 16:41:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト