arXiv reaDer
画像とテキストのマッチングにおける勾配消失を軽減するための選択的ハード ネガティブ マイニング
Selectively Hard Negative Mining for Alleviating Gradient Vanishing in Image-Text Matching
最近では、一連の画像テキスト マッチング (ITM) メソッドが優れたパフォーマンスを達成しています。ただし、ほとんどの既存の ITM モデルは、トレーニングの開始時に勾配が消失することに悩まされていることがわかります。これにより、これらのモデルは極小値に陥りやすくなります。ほとんどの ITM モデルは、最適化の目的としてハード ネガティブ マイニング (HN) によるトリプレット ロスを採用しています。ハード ネガティブ サンプルのみを使用して ITM モデルを最適化すると、簡単に勾配消失が発生する可能性があることがわかりました。この論文では、トレーニング中に勾配が消失する条件を導き出します。正のペアの類似度と負のペアの類似度の差が 0 に近い場合、画像エンコーダとテキスト エンコーダの両方の勾配が 0 に近づきます。勾配消失の問題を軽減するために、選択的ハード ネガティブ マイニング (SelHN) 戦略を提案します。勾配消失条件に従って、ハード ネガティブ サンプルをマイニングするかどうかを選択します。 SelHN は、既存の ITM モデルにプラグ アンド プレイで適用して、トレーニング動作を向上させることができます。勾配の逆伝播をさらに確実にするために、RVSE++ として示される SelHN を使用して Residual Visual Semantic Embedding モデルを構築します。 2 つの ITM ベンチマークでの広範な実験により、RVSE++ の強度が実証され、最先端のパフォーマンスが達成されました。
Recently, a series of Image-Text Matching (ITM) methods achieve impressive performance. However, we observe that most existing ITM models suffer from gradients vanishing at the beginning of training, which makes these models prone to falling into local minima. Most ITM models adopt triplet loss with Hard Negative mining (HN) as the optimization objective. We find that optimizing an ITM model using only the hard negative samples can easily lead to gradient vanishing. In this paper, we derive the condition under which the gradient vanishes during training. When the difference between the positive pair similarity and the negative pair similarity is close to 0, the gradients on both the image and text encoders will approach 0. To alleviate the gradient vanishing problem, we propose a Selectively Hard Negative Mining (SelHN) strategy, which chooses whether to mine hard negative samples according to the gradient vanishing condition. SelHN can be plug-and-play applied to existing ITM models to give them better training behavior. To further ensure the back-propagation of gradients, we construct a Residual Visual Semantic Embedding model with SelHN, denoted as RVSE++. Extensive experiments on two ITM benchmarks demonstrate the strength of RVSE++, achieving state-of-the-art performance.
updated: Wed Mar 01 2023 02:15:07 GMT+0000 (UTC)
published: Wed Mar 01 2023 02:15:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト