arXiv reaDer
in vivo および in silico での超高速画像分類
Ultrafast image categorization in vivo and in silico
人間は画像を非常に効率的に分類することができ、特に動物の存在を非常に迅速に検出することができます。最近、深層学習アルゴリズムは、多数の視覚認識タスクで人間よりも高い精度を達成しています。ただし、これらの人工ネットワークが通常トレーニングおよび評価されるタスクは、通常、非常に特殊化されており、一般化されていません。たとえば、画像の回転に続く精度の低下などです。この点で、生物学的視覚システムは、動物の検出など、より一般的なタスクに対して人工システムよりも柔軟で効率的です。生物学的ニューラル ネットワークと人工ニューラル ネットワークの比較をさらに進めるために、標準の VGG16 畳み込みニューラル ネットワーク (CNN) を、生態学的に人間に関連する 2 つの独立したタスク (動物またはアーティファクトの存在の検出) で再トレーニングしました。ネットワークを再トレーニングすると、人間のようなレベルのパフォーマンスが達成され、心理物理タスクで報告されているものに匹敵することが示されます。さらに、モデルの出力を組み合わせると、分類がより優れていることがわかります。実際、動物 (ライオンなど) は、人工物 (建物など) を含む写真にはあまり写っていない傾向があります。さらに、これらの再トレーニングされたモデルは、回転 (上下逆または傾斜した画像など) やグレースケール変換に対する堅牢性など、人間の精神物理学の予期しない行動観察を再現することができました。最後に、このようなパフォーマンスを達成するために必要な CNN レイヤーの数を定量化し、超高速画像分類の優れた精度がわずか数レイヤーで達成できることを示し、画像認識には視覚オブジェクトの深い連続分析が必要であるという考えに挑戦しました。
Humans are able to categorize images very efficiently, in particular to detect very rapidly the presence of an animal. Recently, deep learning algorithms have achieved higher accuracy than humans for a large set of visual recognition tasks. However, the tasks on which these artificial networks are usually trained and evaluated are usually very specialized which do not generalize well, for example with an accuracy drop following a rotation of the image. In this regard, biological visual systems are more flexible and efficient than artificial systems for more generic tasks, such as detecting an animal. To further the comparison between biological and artificial neural networks, we retrained the standard VGG16 convolutional neural network (CNN) on two independent tasks that are ecologically relevant to humans: detecting the presence of an animal or an artifact. We show that retraining the network achieves a human-like level of performance, comparable to what is reported in psychophysical tasks. Moreover, we show that categorization is better when combining the models' outputs. Indeed, animals (e.g. lions) tend to be less present in photographs containing artifacts (e.g. buildings). Furthermore, these re-trained models were able to reproduce some unexpected behavioral observations of human psychophysics, such as robustness to rotations (e.g., an upside-down or tilted image) or to a grayscale transformation. Finally, we quantified the number of CNN layers needed to achieve such performance, showing that good accuracy for ultrafast image categorization could be achieved with only a few layers, challenging the belief that image recognition would require a deep sequential analysis of visual objects.
updated: Tue Oct 11 2022 12:01:17 GMT+0000 (UTC)
published: Sat May 07 2022 11:19:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト