arXiv reaDer
画像合成と画像認識のための学習開始の注意
Learning Inception Attention for Image Synthesis and Image Recognition
画像合成と画像認識は目覚ましい進歩を遂げましたが、多くの場合、計算コストのかかるトレーニングと推論が犠牲になります。軽量でありながら表現力豊かなディープモデルを学ぶことは、重要で興味深い方向性として浮上しています。 Inceptionビルディングブロックのよく知られたsplit-transform-aggregateデザインヒューリスティックに触発されて、このペーパーは、画像合成モデルの効率的な学習を容易にするSkip-Layer Inception Module(SLIM)と、同じレイヤーバリアント(SLIMと呼ばれる)を提案します。あまりにも)画像認識のための有名なResNeXtsのより強力な代替手段として。 SLIMでは、入力特徴マップは最初にいくつかのグループ(たとえば、4)に分割されます。次に、各グループは、潜在的なスタイルベクトル(チャネルごとの注意を介して)と潜在的な空間マスク(空間的注意を介して)に変換されます。学習された潜在マスクと潜在スタイルベクトルは、ターゲットフィーチャマップを変調するために集約されます。生成的学習のために、SLIMは、スキップレイヤー励起(SLE)モジュールを提示する最近提案された軽量の生成的敵対的ネットワーク(つまり、FastGAN)に基づいて構築されています。数ショットの画像合成タスクの場合、提案されたSLIMは、SLE作業やその他の関連する方法よりも優れたパフォーマンスを実現します。ワンショット画像合成タスクの場合、SinGANなどの従来技術よりも画像構造を保存する強力な機能を示します。画像分類タスクの場合、提案されたSLIMは、ResNetsの畳み込みレイヤーのドロップイン置換として使用され(ResNeXtのようなモデルになります)、モデルの複雑さが大幅に少なくなり、ImageNet-1000データセットの精度が向上します。
Image synthesis and image recognition have witnessed remarkable progress, but often at the expense of computationally expensive training and inference. Learning lightweight yet expressive deep model has emerged as an important and interesting direction. Inspired by the well-known split-transform-aggregate design heuristic in the Inception building block, this paper proposes a Skip-Layer Inception Module (SLIM) that facilitates efficient learning of image synthesis models, and a same-layer variant (dubbed as SLIM too) as a stronger alternative to the well-known ResNeXts for image recognition. In SLIM, the input feature map is first split into a number of groups (e.g., 4).Each group is then transformed to a latent style vector(via channel-wise attention) and a latent spatial mask (via spatial attention). The learned latent masks and latent style vectors are aggregated to modulate the target feature map. For generative learning, SLIM is built on a recently proposed lightweight Generative Adversarial Networks (i.e., FastGANs) which present a skip-layer excitation(SLE) module. For few-shot image synthesis tasks, the proposed SLIM achieves better performance than the SLE work and other related methods. For one-shot image synthesis tasks, it shows stronger capability of preserving images structures than prior arts such as the SinGANs. For image classification tasks, the proposed SLIM is used as a drop-in replacement for convolution layers in ResNets (resulting in ResNeXt-like models) and achieves better accuracy in theImageNet-1000 dataset, with significantly smaller model complexity
updated: Fri Feb 04 2022 04:47:31 GMT+0000 (UTC)
published: Wed Dec 29 2021 19:38:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト