抽象的な視覚的推論タスクに関する少数ショット分類器のパフォーマンスを向上させることができる画像前処理技術を提示します。抽象的な機能を備えた視覚的推論タスクの多くは、深層学習モデルが抽象的な機能を学習する能力があるにもかかわらず、人間は少数の例で簡単に学習できますが、同じサンプル数のコンピュータービジョンアプローチでは非常に困難です。同種(SD)の問題は、個々の画像内でのパターンの繰り返しの知識を必要とする視覚的推論タスクのタイプを表し、現代のコンピュータービジョンアプローチは、膨大な量のトレーニングデータが提供された場合でも、これらの分類の問題を大きく抑えています。画像の振幅スペクトルからピークを除去すると、画像の固有の部分を強調できるという洞察に基づいて、これらの問題を解決する簡単な方法を提案します。いくつかの分類器と組み合わせると、このメソッドは、SD SVRTタスクで数ショット学習で良好に機能し、すべてのタスクで最高の同等の結果を改善し、一部の分類器では平均絶対精度がほぼ40%向上します。特に、リレーショナルネットワークをこの画像前処理アプローチと組み合わせると、いくつかのSDタスクでの偶然レベルから90%以上の精度までパフォーマンスが向上することがわかります。
We present an image preprocessing technique capable of improving the performance of few-shot classifiers on abstract visual reasoning tasks. Many visual reasoning tasks with abstract features are easy for humans to learn with few examples but very difficult for computer vision approaches with the same number of samples, despite the ability for deep learning models to learn abstract features. Same-different (SD) problems represent a type of visual reasoning task requiring knowledge of pattern repetition within individual images, and modern computer vision approaches have largely faltered on these classification problems, even when provided with vast amounts of training data. We propose a simple method for solving these problems based on the insight that removing peaks from the amplitude spectrum of an image is capable of emphasizing the unique parts of the image. When combined with several classifiers, our method performs well on the SD SVRT tasks with few-shot learning, improving upon the best comparable results on all tasks, with average absolute accuracy increases nearly 40% for some classifiers. In particular, we find that combining Relational Networks with this image preprocessing approach improves their performance from chance-level to over 90% accuracy on several SD tasks.