arXiv reaDer
単一細胞顕微鏡データからタンパク質のマルチスケール機能表現を学習する
Learning multi-scale functional representations of proteins from single-cell microscopy data
タンパク質の機能は本質的に細胞内での局在に関連しており、蛍光顕微鏡データはタンパク質の表現を学習するための不可欠なリソースです。分子表現学習の主要な開発にもかかわらず、生物学的画像から機能情報を抽出することは、自明ではない計算タスクのままです。現在の最先端のアプローチでは、オートエンコーダモデルを使用して、画像を再構成することで高品質の機能を学習します。ただし、このような方法では、ノイズやイメージングアーティファクトをキャプチャする傾向があります。この作業では、主要な細胞内局在を分類するために使用される深層学習モデルを再検討し、それらの最終層から抽出された表現を評価します。ローカリゼーション分類でトレーニングされた単純な畳み込みネットワークが、多様な機能情報をカプセル化するタンパク質表現を学習し、オートエンコーダベースのモデルよりも大幅に優れていることを示します。また、生物学的機能のさまざまなスケールにわたるタンパク質表現の品質を評価するための堅牢な評価戦略を提案します。
Protein function is inherently linked to its localization within the cell, and fluorescent microscopy data is an indispensable resource for learning representations of proteins. Despite major developments in molecular representation learning, extracting functional information from biological images remains a non-trivial computational task. Current state-of-the-art approaches use autoencoder models to learn high-quality features by reconstructing images. However, such methods are prone to capturing noise and imaging artifacts. In this work, we revisit deep learning models used for classifying major subcellular localizations, and evaluate representations extracted from their final layers. We show that simple convolutional networks trained on localization classification can learn protein representations that encapsulate diverse functional information, and significantly outperform autoencoder-based models. We also propose a robust evaluation strategy to assess quality of protein representations across different scales of biological function.
updated: Tue May 24 2022 00:00:07 GMT+0000 (UTC)
published: Tue May 24 2022 00:00:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト