arXiv reaDer
マルチモーダルデータは少数のショットの学習を改善しますか?
Will Multi-modal Data Improves Few-shot Learning?
ほとんどの数ショットの学習モデルは、1つのモダリティのデータのみを利用します。モダリティ(画像のテキスト説明)を追加した場合にモデルがどの程度改善されるか、およびそれが学習手順にどのように影響するかを定性的および定量的に調査したいと思います。この目標を達成するために、画像特徴とテキスト特徴を組み合わせる4種類の融合方法を提案します。改善の有効性を検証するために、2つの古典的な数ショット学習モデル(ProtoNetとMAML)を使用して、ConvNetやResNet12などの画像特徴抽出器を使用して融合方法をテストします。注意ベースの融合法が最も効果的であり、ベースラインの結果と比較して約30%の大幅なマージンで分類精度が向上します。
Most few-shot learning models utilize only one modality of data. We would like to investigate qualitatively and quantitatively how much will the model improve if we add an extra modality (i.e. text description of the image), and how it affects the learning procedure. To achieve this goal, we propose four types of fusion method to combine the image feature and text feature. To verify the effectiveness of improvement, we test the fusion methods with two classical few-shot learning models - ProtoNet and MAML, with image feature extractors such as ConvNet and ResNet12. The attention-based fusion method works best, which improves the classification accuracy by a large margin around 30% comparing to the baseline result.
updated: Sun Jul 25 2021 17:34:44 GMT+0000 (UTC)
published: Sun Jul 25 2021 17:34:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト