arXiv reaDer
数ショット学習のためのマルチモーダルプロトタイプネットワーク
Multimodal Prototypical Networks for Few-shot Learning
多くのコンピュータービジョンタスクに並外れた結果をもたらしますが、最先端の深層学習アルゴリズムは、低データシナリオで壊滅的に苦労します。ただし、追加のモダリティ(テキストなど)のデータが存在する場合、これによりデータの不足を補い、分類結果を改善できます。このデータ不足を克服するために、補助モダリティからのデータを活用して、数ショットのシナリオで人口の少ない埋め込みスペースを充実させることができるクロスモーダル特徴生成フレームワークを設計します。具体的には、テキストデータを視覚的特徴空間にマッピングする生成モデルをトレーニングして、より信頼性の高いプロトタイプを取得します。これにより、トレーニング中に追加のモダリティ(テキストなど)からのデータを活用できると同時に、テスト時の最終的なタスクは視覚的なデータのみで分類されたままになります。このような場合、最近傍分類が実行可能なアプローチであり、CUB-200およびOxford-102データセットでの最先端のシングルモーダルおよびマルチモーダルの数ショット学習方法よりも優れていることを示します。
Although providing exceptional results for many computer vision tasks, state-of-the-art deep learning algorithms catastrophically struggle in low data scenarios. However, if data in additional modalities exist (e.g. text) this can compensate for the lack of data and improve the classification results. To overcome this data scarcity, we design a cross-modal feature generation framework capable of enriching the low populated embedding space in few-shot scenarios, leveraging data from the auxiliary modality. Specifically, we train a generative model that maps text data into the visual feature space to obtain more reliable prototypes. This allows to exploit data from additional modalities (e.g. text) during training while the ultimate task at test time remains classification with exclusively visual data. We show that in such cases nearest neighbor classification is a viable approach and outperform state-of-the-art single-modal and multimodal few-shot learning methods on the CUB-200 and Oxford-102 datasets.
updated: Tue Nov 17 2020 19:32:59 GMT+0000 (UTC)
published: Tue Nov 17 2020 19:32:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト