arXiv reaDer
クロスモーダルレシピ検索の分割統治:最近隣のベースラインからSoTAまで
Dividing and Conquering Cross-Modal Recipe Retrieval: from Nearest Neighbours Baselines to SoTA
事前に計算された画像とテキストの埋め込みの上に適用される、クロスモーダルレシピ検索のための新しいノンパラメトリック手法を提案します。私たちの方法を、自己監視分類目標で独立してトレーニングされた画像およびテキストエンコーダーを構築するための標準的なアプローチと組み合わせることにより、困難な画像からレシピへのタスクでほとんどの既存の方法を上回るベースラインモデルを作成します。また、さまざまな最新のアプローチを使用してトレーニングされた画像エンコーダとテキストエンコーダを比較する方法を使用して、クロスモーダルレシピ検索の新しい方法の開発を妨げる問題に対処します。モデル比較からの洞察を使用し、Recipe1Mデータセットの最新技術を大幅に改善する標準のトリプレット損失でベースラインモデルを拡張する方法を示しますが、事前に計算された機能のみを使用し、既存の方法よりもはるかに複雑ではありません。さらに、私たちのアプローチは、レシピ検索を超えて他の挑戦的なドメインに容易に一般化し、政治とGoodNewsのクロスモーダル検索タスクで最先端のパフォーマンスを実現します。
We propose a novel non-parametric method for cross-modal recipe retrieval which is applied on top of precomputed image and text embeddings. By combining our method with standard approaches for building image and text encoders, trained independently with a self-supervised classification objective, we create a baseline model which outperforms most existing methods on a challenging image-to-recipe task. We also use our method for comparing image and text encoders trained using different modern approaches, thus addressing the issues hindering the development of novel methods for cross-modal recipe retrieval. We demonstrate how to use the insights from model comparison and extend our baseline model with standard triplet loss that improves state-of-the-art on the Recipe1M dataset by a large margin, while using only precomputed features and with much less complexity than existing methods. Further, our approach readily generalizes beyond recipe retrieval to other challenging domains, achieving state-of-the-art performance on Politics and GoodNews cross-modal retrieval tasks.
updated: Tue Jul 13 2021 15:32:46 GMT+0000 (UTC)
published: Thu Nov 28 2019 16:00:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト