Visual-Semantic Embedding (VSE) は、イメージと言語モダリティの間の共同埋め込み空間を学習することにより、イメージとテキストの検索における一般的なアプローチであり、意味的な類似性が保持されます。ハードネガティブ マイニングによるトリプレット損失は、ほとんどの VSE メソッドの事実上の目的になっています。トリプレット損失よりも優れた新しい損失関数を生み出す画像ドメインでのディープ メトリック ラーニング (DML) の最近の進歩に触発されて、このホワイト ペーパーでは、画像とテキストのマッチングで VSE のより良い目的を見つける問題を再検討します。勾配移動に基づいて損失を設計するいくつかの試みにもかかわらず、ほとんどの DML 損失は埋め込み空間で経験的に定義されます。モデル パラメーターで次善の勾配更新につながる可能性があるこれらの損失関数を直接適用する代わりに、このホワイト ペーパーでは、既存の DML の勾配の組み合わせと再重み付けを体系的に分析するための新しい勾配ベースの客観的分析フレームワーク (GOAL) を提示します。機能。この分析フレームワークの助けを借りて、さまざまな勾配の組み合わせを探索する勾配空間の目的の新しいファミリをさらに提案します。勾配が有効な損失関数に積分できない場合、提案された目的を実装して、埋め込み空間の損失ではなく勾配空間で直接動作するようにします。包括的な実験により、私たちの新しい目的が、さまざまなビジュアル/テキスト機能およびモデル フレームワーク全体でベースラインよりも一貫してパフォーマンスを向上させていることが実証されました。また、重度のクロスモーダル相互作用を伴う視覚言語モデルを含むトリプレットファミリー損失を使用して他のモデルに拡張することにより、GOAL フレームワークの一般化可能性を示し、COCO の画像テキスト検索タスクで最先端の結果を達成しました。そしてFlick30K。
Visual-Semantic Embedding (VSE) is a prevalent approach in image-text retrieval by learning a joint embedding space between the image and language modalities where semantic similarities would be preserved. The triplet loss with hard-negative mining has become the de-facto objective for most VSE methods. Inspired by recent progress in deep metric learning (DML) in the image domain which gives rise to new loss functions that outperform triplet loss, in this paper, we revisit the problem of finding better objectives for VSE in image-text matching. Despite some attempts in designing losses based on gradient movement, most DML losses are defined empirically in the embedding space. Instead of directly applying these loss functions which may lead to sub-optimal gradient updates in model parameters, in this paper we present a novel Gradient-based Objective AnaLysis framework, or GOAL, to systematically analyze the combinations and reweighting of the gradients in existing DML functions. With the help of this analysis framework, we further propose a new family of objectives in the gradient space exploring different gradient combinations. In the event that the gradients are not integrable to a valid loss function, we implement our proposed objectives such that they would directly operate in the gradient space instead of on the losses in the embedding space. Comprehensive experiments have demonstrated that our novel objectives have consistently improved performance over baselines across different visual/text features and model frameworks. We also showed the generalizability of the GOAL framework by extending it to other models using triplet family losses including vision-language model with heavy cross-modal interactions and have achieved state-of-the-art results on the image-text retrieval tasks on COCO and Flick30K.