arXiv reaDer
ReCLIP:式の理解を参照するための強力なゼロショットベースライン
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension
新しいビジュアルドメインの参照式理解(ReC)モデルをトレーニングするには、ドメイン内の画像の参照式と、場合によっては対応するバウンディングボックスを収集する必要があります。大規模な事前トレーニング済みモデルはドメイン間の画像分類に役立ちますが、ReCなどのより複雑なタスクにゼロショット方式で適用できるかどうかは不明です。 ReCLIPは、最先端の大規模モデルであるCLIPをReCに再利用する、シンプルでありながら強力なゼロショットベースラインです。 ReCとCLIPの対照的な事前トレーニング目標との密接な関係に動機付けられた、ReCLIPの最初のコンポーネントは、トリミングとぼかしによってオブジェクトの提案を分離し、それらをCLIPに渡す領域スコアリング方法です。ただし、合成データセットでの制御された実験を通じて、CLIPは既成の空間推論を実行できないことがほとんどであることがわかりました。したがって、ReCLIPの2番目のコンポーネントは、いくつかのタイプの空間関係を処理する空間関係リゾルバーです。 RefCOCOgでは以前の作業と監視対象モデルからのゼロショットベースライン間のギャップを最大29%削減し、RefGTA(ビデオゲーム画像)では、実際の画像でトレーニングされた監視対象ReCモデルに対するReCLIPの相対的な改善は8%です。
Training a referring expression comprehension (ReC) model for a new visual domain requires collecting referring expressions, and potentially corresponding bounding boxes, for images in the domain. While large-scale pre-trained models are useful for image classification across domains, it remains unclear if they can be applied in a zero-shot manner to more complex tasks like ReC. We present ReCLIP, a simple but strong zero-shot baseline that repurposes CLIP, a state-of-the-art large-scale model, for ReC. Motivated by the close connection between ReC and CLIP's contrastive pre-training objective, the first component of ReCLIP is a region-scoring method that isolates object proposals via cropping and blurring, and passes them to CLIP. However, through controlled experiments on a synthetic dataset, we find that CLIP is largely incapable of performing spatial reasoning off-the-shelf. Thus, the second component of ReCLIP is a spatial relation resolver that handles several types of spatial relations. We reduce the gap between zero-shot baselines from prior work and supervised models by as much as 29% on RefCOCOg, and on RefGTA (video game imagery), ReCLIP's relative improvement over supervised ReC models trained on real images is 8%.
updated: Tue Apr 12 2022 17:55:38 GMT+0000 (UTC)
published: Tue Apr 12 2022 17:55:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト