arXiv reaDer
対照的な多視点テキスト視覚エンコーディング: 10 万スケールのワンショット ロゴ識別に向けて
Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred Thousand-Scale One-Shot Logo Identification
この論文では、オープンセットのワンショット設定で、自然なシーンでビジネスブランドのロゴを識別する問題を研究します。この問題のセットアップは、従来研究されてきた「クローズド セット」や「カテゴリごとの大規模なトレーニング サンプル」のロゴ認識設定よりもはるかに困難です。ロゴに表示されるテキストとロゴのグラフィックデザインをエンコードして、堅牢な対照表現を学習する、新しいマルチビューテキストビジュアルエンコーディングフレームワークを提案します。これらの表現は、バッチ全体でロゴの複数のビューに対して共同で学習されるため、目に見えないロゴにうまく一般化されます。自然なシーン タスクでのトリミングされたロゴの検証、トリミングされたロゴの識別、およびエンド ツー エンドのロゴの識別のための提案されたフレームワークを評価します。最先端の方法と比較します。さらに、文献には、10 万スケールのロゴ識別の研究を容易にする参照ロゴ イメージの「非常に大規模な」コレクションがありません。文献のこのギャップを埋めるために、ウィキデータから収集した 10 万のビジネス ブランドのロゴを含むウィキデータ リファレンス ロゴ データセット (WiRLD) を導入します。検証タスクの QMUL-OpenLogo データセットで 91.3% の ROC 曲線下の領域を達成する提案されたフレームワークは、最新の方法よりも 9.1% とワンショット ロゴ識別タスクで 2.6% 優れています。それぞれ Toplogos-10 と FlickrLogos32 データセット。さらに、候補ロゴの数が 100K スケールであっても、他のベースラインと比較して、この方法がより安定していることを示しています。
In this paper, we study the problem of identifying logos of business brands in natural scenes in an open-set one-shot setting. This problem setup is significantly more challenging than traditionally-studied 'closed-set' and 'large-scale training samples per category' logo recognition settings. We propose a novel multi-view textual-visual encoding framework that encodes text appearing in the logos as well as the graphical design of the logos to learn robust contrastive representations. These representations are jointly learned for multiple views of logos over a batch and thereby they generalize well to unseen logos. We evaluate our proposed framework for cropped logo verification, cropped logo identification, and end-to-end logo identification in natural scene tasks; and compare it against state-of-the-art methods. Further, the literature lacks a 'very-large-scale' collection of reference logo images that can facilitate the study of one-hundred thousand-scale logo identification. To fill this gap in the literature, we introduce Wikidata Reference Logo Dataset (WiRLD), containing logos for 100K business brands harvested from Wikidata. Our proposed framework that achieves an area under the ROC curve of 91.3% on the QMUL-OpenLogo dataset for the verification task, outperforms state-of-the-art methods by 9.1% and 2.6% on the one-shot logo identification task on the Toplogos-10 and the FlickrLogos32 datasets, respectively. Further, we show that our method is more stable compared to other baselines even when the number of candidate logos is on a 100K scale.
updated: Wed Nov 23 2022 12:59:41 GMT+0000 (UTC)
published: Wed Nov 23 2022 12:59:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト