arXiv reaDer
SATBench:人間と動的ニューラルネットワークによるオブジェクト認識における速度と精度のトレードオフのベンチマーク
SATBench: Benchmarking the speed-accuracy tradeoff in object recognition by humans and dynamic neural networks
読書や運転などの日常業務の中核は、アクティブな物体認識です。そのようなタスクをモデル化する試みは、現在、時間を組み込むことができないことによって妨げられています。人々は速度と正確さの間の柔軟なトレードオフを示し、このトレードオフは重要な人間のスキルです。ディープニューラルネットワークは、人間の物体認識のピークパフォーマンスと神経活動を予測するための有望な候補として浮上しています。ただし、時間的次元、つまり速度と精度のトレードオフ(SAT)をモデル化することは、人間がオブジェクトを認識する方法の有用な計算モデルとして機能するために不可欠です。この目的のために、ここでは、ImageNet画像の認識における速度と精度のトレードオフ(SAT)の最初の大規模(148のオブザーバー、4つのニューラルネットワーク、8つのタスク)データセットを紹介します。人間の各試験では、目的の反応時間を示すビープ音が、画像が表示された後、一定の遅延で鳴り、観察者の応答は、ビープ音の時間の近くで発生した場合にのみカウントされます。一連のブロックで、多くのビープ音の待ち時間、つまり反応時間をテストします。人間の精度は反応時間とともに増加することを観察し、その特性を推論時間適応計算が可能ないくつかの動的ニューラルネットワークの動作と比較します。 FLOPを反応時間のアナログとして使用して、カーブフィットエラー、カテゴリごとの相関、およびカーブの急峻さについてネットワークを人間と比較し、カスケードされた動的ニューラルネットワークがオブジェクト認識タスクにおける人間の反応時間の有望なモデルであると結論付けます。
The core of everyday tasks like reading and driving is active object recognition. Attempts to model such tasks are currently stymied by the inability to incorporate time. People show a flexible tradeoff between speed and accuracy and this tradeoff is a crucial human skill. Deep neural networks have emerged as promising candidates for predicting peak human object recognition performance and neural activity. However, modeling the temporal dimension i.e., the speed-accuracy tradeoff (SAT), is essential for them to serve as useful computational models for how humans recognize objects. To this end, we here present the first large-scale (148 observers, 4 neural networks, 8 tasks) dataset of the speed-accuracy tradeoff (SAT) in recognizing ImageNet images. In each human trial, a beep, indicating the desired reaction time, sounds at a fixed delay after the image is presented, and observer's response counts only if it occurs near the time of the beep. In a series of blocks, we test many beep latencies, i.e., reaction times. We observe that human accuracy increases with reaction time and proceed to compare its characteristics with the behavior of several dynamic neural networks that are capable of inference-time adaptive computation. Using FLOPs as an analog for reaction time, we compare networks with humans on curve-fit error, category-wise correlation, and curve steepness, and conclude that cascaded dynamic neural networks are a promising model of human reaction time in object recognition tasks.
updated: Thu Jun 16 2022 20:03:31 GMT+0000 (UTC)
published: Thu Jun 16 2022 20:03:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト