arXiv reaDer
画像言語基礎モデルを使用して人間の脳内にある共有された解読可能な概念を特定する
Identifying Shared Decodable Concepts in the Human Brain Using Image-Language Foundation Models
私たちは、高品質の事前トレーニング済みマルチモーダル表現を利用して、人間の脳内のきめの細かいセマンティック ネットワークを探索する方法を紹介します。これまでの研究では、異なるタイプの感覚入力に対して異なる解剖学的領域が優先的に活性化する、脳内の機能局在の証拠が文書化されている。紡錘状の顔面領域や海馬傍領域など、そのような局所的な構造が多く知られています。これは、追加の脳領域 (または脳領域の結合) も他の重要な意味概念に特化しているかどうかという疑問を引き起こします。このような脳領域を特定するために、私たちは大規模な機能的磁気共鳴画像法 (fMRI) データセットから解読可能な視覚概念を明らかにするデータ駆動型のアプローチを開発しました。私たちの分析は大きく 3 つのセクションに分かれています。まず、完全に接続されたニューラル ネットワークが、脳の反応を画像言語基盤モデルである CLIP の出力にマッピングするようにトレーニングされます (Radford et al., 2021)。続いて、対比学習次元削減法により、CLIP 空間の脳で解読可能なコンポーネントが明らかになります。分析の最後のセクションでは、ボクセル マスキング最適化手法を使用して脳内の共有デコード可能概念を位置特定し、共有デコード可能コンセプト (SDC) 空間を生成します。私たちの手順の精度は、顔、体、場所の領域を識別する以前の位置特定実験と比較することで検証されます。対応する脳領域がすでに知られているこれらの概念に加えて、参加者間で共有される新しい概念表現を人間の脳の他の領域に局所化します。また、この方法を使用して、個々の参加者のきめの細かいセマンティック ネットワークを検査する方法も示します。この拡張可能な手法は、AI と神経科学の交差点における他の疑問を調査するためにも適用できると考えています。
We introduce a method that takes advantage of high-quality pretrained multimodal representations to explore fine-grained semantic networks in the human brain. Previous studies have documented evidence of functional localization in the brain, with different anatomical regions preferentially activating for different types of sensory input. Many such localized structures are known, including the fusiform face area and parahippocampal place area. This raises the question of whether additional brain regions (or conjunctions of brain regions) are also specialized for other important semantic concepts. To identify such brain regions, we developed a data-driven approach to uncover visual concepts that are decodable from a massive functional magnetic resonance imaging (fMRI) dataset. Our analysis is broadly split into three sections. First, a fully connected neural network is trained to map brain responses to the outputs of an image-language foundation model, CLIP (Radford et al., 2021). Subsequently, a contrastive-learning dimensionality reduction method reveals the brain-decodable components of CLIP space. In the final section of our analysis, we localize shared decodable concepts in the brain using a voxel-masking optimization method to produce a shared decodable concept (SDC) space. The accuracy of our procedure is validated by comparing it to previous localization experiments that identify regions for faces, bodies, and places. In addition to these concepts, whose corresponding brain regions were already known, we localize novel concept representations which are shared across participants to other areas of the human brain. We also demonstrate how this method can be used to inspect fine-grained semantic networks for individual participants. We envisage that this extensible method can also be adapted to explore other questions at the intersection of AI and neuroscience.
updated: Tue Jun 06 2023 03:29:47 GMT+0000 (UTC)
published: Tue Jun 06 2023 03:29:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト