視覚の計算モデルとしてディープ ニューラル ネットワークの採用が急速に増加したことにより、これらのモデルを人間と「調整」する取り組みが促進されました。アライメントの関心の 1 つの側面には行動の選択が含まれますが、選択パターンの特徴付けを超えて、視覚的な意思決定の時間的側面を把握することは困難でした。ここでは、刺激計算可能なタスク最適化モデルから反応時間の計算アカウントを構築するための汎用方法論をスケッチします。具体的には、リカレントビジョンモデルにおける証拠の蓄積を要約した主観的論理理論からの洞察を活用した新しい指標を紹介します。私たちは、知覚のグループ化、メンタル シミュレーション、シーンの分類に及ぶ 4 つの異なる視覚的意思決定タスクにわたる刺激操作に対する人間の反応時間のパターンと、私たちの指標が一致していることを実証します。この研究は、神経科学のための検証可能な仮説を生成するために、他のさまざまな認知タスクのコンテキストでモデルと人間の視覚戦略の時間的整合を探索するための道を開きます。
The meteoric rise in the adoption of deep neural networks as computational models of vision has inspired efforts to "align" these models with humans. One dimension of interest for alignment includes behavioral choices, but moving beyond characterizing choice patterns to capturing temporal aspects of visual decision-making has been challenging. Here, we sketch a general-purpose methodology to construct computational accounts of reaction times from a stimulus-computable, task-optimized model. Specifically, we introduce a novel metric leveraging insights from subjective logic theory summarizing evidence accumulation in recurrent vision models. We demonstrate that our metric aligns with patterns of human reaction times for stimulus manipulations across four disparate visual decision-making tasks spanning perceptual grouping, mental simulation, and scene categorization. This work paves the way for exploring the temporal alignment of model and human visual strategies in the context of various other cognitive tasks toward generating testable hypotheses for neuroscience.