arXiv reaDer
人間の目から発想を得たリカレントニューラルネットワークは、敵対的なノイズに対してより堅牢です
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises
人間の視覚と比較して、畳み込みニューラルネットワーク(CNN)に基づくコンピュータービジョンは、敵対的なノイズに対してより脆弱です。この違いは、目が視覚入力をサンプリングする方法と、脳が網膜サンプルを背側と腹側の視覚経路を介して処理する方法に起因する可能性があります。脳に触発されて、人間の網膜を模倣する入力サンプラー、次に見る場所をガイドする背側ネットワーク、網膜サンプルを表す腹側ネットワークなど、リカレントニューラルネットワークを設計します。これらのモジュールをまとめると、モデルは画像を複数回一瞥し、各一瞥で重要な部分に注意を払い、時間の経過とともに表現を蓄積して画像を認識することを学習します。さまざまな入力サンプリング戦略の効果に特に焦点を当てて、さまざまなレベルの敵対的ノイズに対する堅牢性について、このようなモデルをテストします。私たちの調査結果は、網膜の中心窩形成とサンプリングにより、モデルが敵対的なノイズに対してより堅牢になり、画像をより多く見るために長い時間が与えられると、モデルが攻撃から自分自身を修正する可能性があることを示唆しています。結論として、堅牢な視覚認識は、フィードフォワードのみのCNNとは対照的に、網膜変換、注意誘導眼球運動、および反復処理という3つの脳に触発されたメカニズムを組み合わせて使用することで恩恵を受けることができます。
Compared to human vision, computer vision based on convolutional neural networks (CNN) are more vulnerable to adversarial noises. This difference is likely attributable to how the eyes sample visual input and how the brain processes retinal samples through its dorsal and ventral visual pathways, which are under-explored for computer vision. Inspired by the brain, we design recurrent neural networks, including an input sampler that mimics the human retina, a dorsal network that guides where to look next, and a ventral network that represents the retinal samples. Taking these modules together, the models learn to take multiple glances at an image, attend to a salient part at each glance, and accumulate the representation over time to recognize the image. We test such models for their robustness against a varying level of adversarial noises with a special focus on the effect of different input sampling strategies. Our findings suggest that retinal foveation and sampling renders a model more robust against adversarial noises, and the model may correct itself from an attack when it is given a longer time to take more glances at an image. In conclusion, robust visual recognition can benefit from the combined use of three brain-inspired mechanisms: retinal transformation, attention guided eye movement, and recurrent processing, as opposed to feedforward-only CNNs.
updated: Wed Jun 15 2022 03:44:42 GMT+0000 (UTC)
published: Wed Jun 15 2022 03:44:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト