arXiv reaDer
数ショット学習のためのメタフィルターによる動的アライメントの学習
Learning Dynamic Alignment via Meta-filter for Few-shot Learning
非常に限られた数ショット(サポート)の例で学習した知識を適応させることによって新しいクラスを認識することを目的とする数ショット学習(FSL)は、コンピュータービジョンにおける重要な未解決の問題のままです。数ショット学習における特徴の位置合わせのための既存の方法のほとんどは、チャネルの不一致を省略して、画像レベルまたは空間レベルの位置合わせのみを考慮します。私たちの洞察は、これらの方法は冗長なマッチングで不十分な適応につながることであり、チャネルごとの調整を活用することは、学習した知識を新しいクラスにうまく適応させるための鍵です。したがって、この論文では、異なるローカルサポート情報に従ってクエリ領域とチャネルの両方を効果的に強調表示できる動的アライメントを学習することを提案します。具体的には、これは、最初に入力数ショットを条件とする特徴位置の近傍を動的にサンプリングすることによって達成されます。これに基づいて、位置依存とチャネル依存の両方の動的メタフィルターをさらに予測します。フィルタは、クエリ機能を位置固有およびチャネル固有の知識に合わせるために使用されます。さらに、アライメントのより正確な制御を可能にするために、ニューラル常微分方程式(ODE)を採用しています。そのような意味で、私たちのモデルは、数ショットの例のきめ細かいセマンティックコンテキストをより適切にキャプチャできるため、数ショットの学習に対する動的な知識の適応が容易になります。結果として得られるフレームワークは、miniImageNetやtieredImageNetなどの主要な数ショットの視覚認識ベンチマークに関する新しい最先端技術を確立します。
Few-shot learning (FSL), which aims to recognise new classes by adapting the learned knowledge with extremely limited few-shot (support) examples, remains an important open problem in computer vision. Most of the existing methods for feature alignment in few-shot learning only consider image-level or spatial-level alignment while omitting the channel disparity. Our insight is that these methods would lead to poor adaptation with redundant matching, and leveraging channel-wise adjustment is the key to well adapting the learned knowledge to new classes. Therefore, in this paper, we propose to learn a dynamic alignment, which can effectively highlight both query regions and channels according to different local support information. Specifically, this is achieved by first dynamically sampling the neighbourhood of the feature position conditioned on the input few shot, based on which we further predict a both position-dependent and channel-dependent Dynamic Meta-filter. The filter is used to align the query feature with position-specific and channel-specific knowledge. Moreover, we adopt Neural Ordinary Differential Equation (ODE) to enable a more accurate control of the alignment. In such a sense our model is able to better capture fine-grained semantic context of the few-shot example and thus facilitates dynamical knowledge adaptation for few-shot learning. The resulting framework establishes the new state-of-the-arts on major few-shot visual recognition benchmarks, including miniImageNet and tieredImageNet.
updated: Thu Mar 25 2021 03:29:33 GMT+0000 (UTC)
published: Thu Mar 25 2021 03:29:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト