ワンショットのきめの細かい視覚認識は、多くの場合、新しいきめの細かいクラスのトレーニングデータ不足の問題に悩まされます。この問題を軽減するために、既製の画像ジェネレーターを使用して追加のトレーニング画像を合成できますが、これらの合成画像は、ワンショットのきめの細かい認識の精度を実際に向上させるのに役立たないことがよくあります。この論文では、生成された画像を元の画像と組み合わせるメタ学習フレームワークを提案し、結果として得られる「ハイブリッド」トレーニング画像がワンショット学習を改善できるようにします。具体的には、新しいクラスのいくつかのトレーニングインスタンスによって汎用イメージジェネレーターが更新され、ワンショットのきめの細かい認識とイメージ強化を実行するメタイメージ強化ネットワーク(MetaIRNet)が提案されています。モデルはエンドツーエンドの方法でトレーニングされており、私たちの実験は、ワンショットのきめの細かい画像分類ベンチマークのベースラインに対する一貫した改善を示しています。
One-shot fine-grained visual recognition often suffers from the problem of training data scarcity for new fine-grained classes. To alleviate this problem, an off-the-shelf image generator can be applied to synthesize additional training images, but these synthesized images are often not helpful for actually improving the accuracy of one-shot fine-grained recognition. This paper proposes a meta-learning framework to combine generated images with original images, so that the resulting ``hybrid'' training images can improve one-shot learning. Specifically, the generic image generator is updated by a few training instances of novel classes, and a Meta Image Reinforcing Network (MetaIRNet) is proposed to conduct one-shot fine-grained recognition as well as image reinforcement. The model is trained in an end-to-end manner, and our experiments demonstrate consistent improvement over baselines on one-shot fine-grained image classification benchmarks.