arXiv reaDer
サル視覚野でのマルチタスク学習によるロバストな視力に向けて
Towards robust vision by multi-task learning on monkey visual cortex
ディープニューラルネットワークは、コンピュータービジョンの多くのタスクに最先端を設定しますが、歪みを画像化する一般化機能は驚くほど壊れやすいものです。対照的に、哺乳類の視覚系は、広範囲の摂動に対してロバストです。最近の研究は、この一般化能力は、視覚野全体の視覚刺激の表現にエンコードされた有用な誘導バイアスによって説明できることを示唆しています。ここでは、マルチタスク学習アプローチでこれらの誘導バイアスをうまく活用しました。画像分類を実行し、マカク一次視覚野(V1)の神経活動を予測するために、深いネットワークを共同でトレーニングしました。画像の歪みに対するロバスト性をテストすることにより、ネットワークの分布外の一般化能力を測定しました。サルV1データでの共同トレーニングは、トレーニング中にこれらの歪みがないにもかかわらず、堅牢性の向上につながることがわかりました。さらに、ネットワークの堅牢性は、アーキテクチャの一部がノイズの多い画像で直接トレーニングされるOracleネットワークの堅牢性に非常に近いことを示しました。私たちの結果はまた、ネットワークの表現が堅牢性が向上するにつれて、より脳のようになることを示しました。新規の制約付き再構成分析を使用して、脳で正則化されたネットワークをより堅牢にするものを調査しました。共同トレーニングされたネットワークは、画像分類のみのためにトレーニングされたベースラインネットワークと比較した場合、ノイズよりもコンテンツに敏感であることがわかりました。 ImageNet画像のDeepGaze予測顕著性マップを使用して、サルの共同トレーニングされたネットワークは、オブジェクトの境界とボトムアップの検出におけるV1の役割に関する既存の理論を彷彿とさせる、シーン内の顕著な領域に対してより敏感になる傾向があることがわかりました。顕著性。全体として、私たちの仕事は、脳から誘導バイアスを伝達する有望な研究手段を拡大し、私たちの伝達の効果の新しい分析を提供します。
Deep neural networks set the state-of-the-art across many tasks in computer vision, but their generalization ability to image distortions is surprisingly fragile. In contrast, the mammalian visual system is robust to a wide range of perturbations. Recent work suggests that this generalization ability can be explained by useful inductive biases encoded in the representations of visual stimuli throughout the visual cortex. Here, we successfully leveraged these inductive biases with a multi-task learning approach: we jointly trained a deep network to perform image classification and to predict neural activity in macaque primary visual cortex (V1). We measured the out-of-distribution generalization abilities of our network by testing its robustness to image distortions. We found that co-training on monkey V1 data leads to increased robustness despite the absence of those distortions during training. Additionally, we showed that our network's robustness is very close to that of an Oracle network where parts of the architecture are directly trained on noisy images. Our results also demonstrated that the network's representations become more brain-like as their robustness improves. Using a novel constrained reconstruction analysis, we investigated what makes our brain-regularized network more robust. We found that our co-trained network is more sensitive to content than noise when compared to a Baseline network that we trained for image classification alone. Using DeepGaze-predicted saliency maps for ImageNet images, we found that our monkey co-trained network tends to be more sensitive to salient regions in a scene, reminiscent of existing theories on the role of V1 in the detection of object borders and bottom-up saliency. Overall, our work expands the promising research avenue of transferring inductive biases from the brain, and provides a novel analysis of the effects of our transfer.
updated: Thu Jul 29 2021 21:55:48 GMT+0000 (UTC)
published: Thu Jul 29 2021 21:55:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト