arXiv reaDer
対照的な知識蒸留による弱教師あり視覚接地の改善
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation
弱教師ありフレーズグラウンディングは、画像と文のペアのみを使用して、領域とフレーズの対応を学習することを目的としています。したがって、主要な課題は、トレーニング中に画像領域と文句の間のリンクが欠落していることにあります。この課題に対処するために、トレーニング時に汎用オブジェクト検出器を活用し、領域フレーズと画像文のマッチングの両方を考慮した対照的な学習フレームワークを提案します。私たちのコアイノベーションは、地域フレーズスコア関数の学習です。これに基づいて、画像文スコア関数がさらに構築されます。重要なことに、私たちの地域フレーズスコア関数は、画像と文のペア内で検出されたオブジェクト名と候補フレーズの間のソフトマッチングスコアから抽出することによって学習されますが、画像と文のスコア関数は、グラウンドトゥルースの画像と文のペアによって監視されます。このようなスコア関数の設計により、テスト時にオブジェクトを検出する必要がなくなり、推論コストが大幅に削減されます。ベルやホイッスルなしで、私たちのアプローチは、テスト時に高価なオブジェクト検出器を必要とする以前の方法を超えて、視覚的なフレーズの接地で最先端の結果を達成します。
Weakly supervised phrase grounding aims at learning region-phrase correspondences using only image-sentence pairs. A major challenge thus lies in the missing links between image regions and sentence phrases during training. To address this challenge, we leverage a generic object detector at training time, and propose a contrastive learning framework that accounts for both region-phrase and image-sentence matching. Our core innovation is the learning of a region-phrase score function, based on which an image-sentence score function is further constructed. Importantly, our region-phrase score function is learned by distilling from soft matching scores between the detected object names and candidate phrases within an image-sentence pair, while the image-sentence score function is supervised by ground-truth image-sentence pairs. The design of such score functions removes the need of object detection at test time, thereby significantly reducing the inference cost. Without bells and whistles, our approach achieves state-of-the-art results on visual phrase grounding, surpassing previous methods that require expensive object detectors at test time.
updated: Sun Apr 25 2021 05:11:11 GMT+0000 (UTC)
published: Fri Jul 03 2020 22:02:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト