名前付きエンティティは、特にニュースやウィキペディアの記事などのドメインで、画像に自然に付随するテキストに遍在しています。以前の研究では、ウィキペディアで事前トレーニングされ、名前付きエンティティのないベンチマーク データセットで評価された画像テキスト検索モデルのパフォーマンスが低い理由として、名前付きエンティティが特定されました。名前付きエンティティはめったに言及されないため、モデル化が難しい場合があります。また、自己教師ありモデルの学習機会を逃したことも表しています。画像内の名前付きエンティティとオブジェクトの間のリンクは、モデルによって見落とされる可能性がありますが、オブジェクトがより一般的な用語を使用して言及された場合はそうではありません。この作業では、グラウンディング ベースのマルチモーダル モデルを事前トレーニングし、オープン語彙検出を微調整するために名前付きエンティティを処理する方法として、ハイパーニム化を調査します。 (1) 概念の包括的なオントロジーに依存する「手動の」パイプラインと、(2) 言語モデルを訓練してハイパーニム化の実行を学習させる「学習済み」アプローチです。 Wikipedia と The New York Times のデータを使って実験を行っています。ハイパーニム化後の対象オブジェクトに対する事前トレーニングのパフォーマンスの向上を報告し、オープン語彙検出、特にトレーニング中に見られないクラスでのハイパーニム化の可能性を示します。
Named entities are ubiquitous in text that naturally accompanies images, especially in domains such as news or Wikipedia articles. In previous work, named entities have been identified as a likely reason for low performance of image-text retrieval models pretrained on Wikipedia and evaluated on named entities-free benchmark datasets. Because they are rarely mentioned, named entities could be challenging to model. They also represent missed learning opportunities for self-supervised models: the link between named entity and object in the image may be missed by the model, but it would not be if the object were mentioned using a more common term. In this work, we investigate hypernymization as a way to deal with named entities for pretraining grounding-based multi-modal models and for fine-tuning on open-vocabulary detection. We propose two ways to perform hypernymization: (1) a ``manual'' pipeline relying on a comprehensive ontology of concepts, and (2) a ``learned'' approach where we train a language model to learn to perform hypernymization. We run experiments on data from Wikipedia and from The New York Times. We report improved pretraining performance on objects of interest following hypernymization, and we show the promise of hypernymization on open-vocabulary detection, specifically on classes not seen during training.