arXiv reaDer
データの増強と画像の理解
Data augmentation and image understanding
学際的な研究は、多くの場合、科学の進歩の中核です。この論文では、機械学習、認知科学、神経科学の間のいくつかの有利な相乗効果を探ります。特に、この論文は視覚と画像に焦点を当てています。視覚はほとんどの人の支配的な感覚であるため、人間の視覚系は行動と神経科学の両方の観点から広く研究されてきました。同様に、マシンビジョンも活発な研究分野であり、現在は人工ニューラルネットワークの使用が主流となっています。この作品は、視覚と生物学的ビジョンとより整合した表現の学習に焦点を当てています。そのために、私は認知科学と計算論的神経科学のツールと側面を研究し、それらを視覚の機械学習モデルに組み込むことを試みました。この論文の中心的な主題はデータ拡張です。これは、画像の変換を通じてデータセットのサイズを拡張するために人工ニューラルネットワークをトレーニングするために一般的に使用される手法です。見過ごされがちですが、データ拡張は、視覚的な世界で見られる変換(たとえば、視点や照明の変化)に対応しているため、知覚的にもっともらしい変換を実装します。さらに、神経科学者は、脳がこれらの変換の下でオブジェクトを不変に表すことを発見しました。この論文全体を通して、私はこれらの洞察を使用して、特に有用な誘導バイアス、人工ニューラルネットワークのより効果的な正則化方法として、および知覚的にもっともらしい変換に対する視覚モデルの不変性を分析および改善するためのフレームワークとして、データ拡張を分析します。全体として、この作業は、データ拡張の特性にさらに光を当て、学際的な研究の可能性を実証することを目的としています。
Interdisciplinary research is often at the core of scientific progress. This dissertation explores some advantageous synergies between machine learning, cognitive science and neuroscience. In particular, this thesis focuses on vision and images. The human visual system has been widely studied from both behavioural and neuroscientific points of view, as vision is the dominant sense of most people. In turn, machine vision has also been an active area of research, currently dominated by the use of artificial neural networks. This work focuses on learning representations that are more aligned with visual perception and the biological vision. For that purpose, I have studied tools and aspects from cognitive science and computational neuroscience, and attempted to incorporate them into machine learning models of vision. A central subject of this dissertation is data augmentation, a commonly used technique for training artificial neural networks to augment the size of data sets through transformations of the images. Although often overlooked, data augmentation implements transformations that are perceptually plausible, since they correspond to the transformations we see in our visual world -- changes in viewpoint or illumination, for instance. Furthermore, neuroscientists have found that the brain invariantly represents objects under these transformations. Throughout this dissertation, I use these insights to analyse data augmentation as a particularly useful inductive bias, a more effective regularisation method for artificial neural networks, and as the framework to analyse and improve the invariance of vision models to perceptually plausible transformations. Overall, this work aims to shed more light on the properties of data augmentation and demonstrate the potential of interdisciplinary research.
updated: Mon Dec 28 2020 11:00:52 GMT+0000 (UTC)
published: Mon Dec 28 2020 11:00:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト