arXiv reaDer
フレーズ検出のための粗いものからきめ細かい概念ベースの識別まで
From Coarse to Fine-grained Concept based Discrimination for Phrase Detection
フレーズ検出には、フレーズが画像に関連しているかどうかを識別し、該当する場合はローカライズする方法が必要です。より識別力のある検出モデルをトレーニングするための重要な課題は、ネガのサンプリングです。以前の研究からのサンプリング手法は、ネガティブ サンプルのより広範な分布を無視して、ハードで、しばしばノイズの多いネガに主に焦点を当てています。私たちが提案するCFCD-Netは、2つの斬新な方法でこれに対処します。まず、概念と呼ばれる意味的に類似した単語のグループ (例: {犬、猫、馬} と \ {車、トラック、SUV}) を生成し、CFCD-Net をトレーニングして、関心のある領域とその無関係な領域を区別します。概念。第 2 に、きめの細かい相互排他的な単語 (色など) を含むフレーズの場合、新しいきめの細かいモジュール (FGM) を使用して、各地域に適用可能なフレーズを 1 つだけ選択するようモデルに強制します。 Flickr30K Entities と RefCOCO+ でのアプローチを評価すると、最先端の技術よりも mAP が 1.5 ~ 2 ポイント改善されます。 FGM モジュールの影響を受けるフレーズのみを考慮すると、両方のデータセットで 3 ~ 4 ポイント改善されます。
Phrase detection requires methods to identify if a phrase is relevant to an image and localize it, if applicable. A key challenge for training more discriminative detection models is sampling negatives. Sampling techniques from prior work focus primarily on hard, often noisy, negatives disregarding the broader distribution of negative samples. Our proposed CFCD-Net addresses this through two novels methods. First, we generate groups of semantically similar words we call concepts (e.g. , {dog, cat, horse} and \ {car, truck, SUV}), and then train our CFCD-Net to discriminate between a region of interest and its unrelated concepts. Second, for phrases containing fine-grained mutually-exclusive words (e.g. , colors), we force the model to select only one applicable phrase for each region using our novel fine-grained module (FGM). We evaluate our approach on Flickr30K Entities and RefCOCO+, where we improve mAP over the state-of-the-art by 1.5-2 points. When considering only the phrases affected by our FGM module, we improve by 3-4 points on both datasets.
updated: Tue Nov 15 2022 04:27:09 GMT+0000 (UTC)
published: Mon Dec 06 2021 18:46:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト