arXiv reaDer
IMG2SMI:分子構造画像の簡略化された分子入力ラインエントリシステムへの変換
IMG2SMI: Translating Molecular Structure Images to Simplified Molecular-input Line-entry System
多くの科学分野と同様に、新しい化学文献は驚異的なペースで成長しており、毎月何千もの論文が発表されています。化学文献の大部分は、新しい分子と分子間の反応に焦点を当てています。最も重要な情報は、分子の2D画像を通じて伝達され、説明されている基礎となる分子または反応を表します。再現性があり、機械で読み取り可能な分子表現を保証するために、SMILESやSELFIESなどのテキストベースの分子記述子が作成されました。これらのテキストベースの分子表現は分子生成を提供しますが、残念ながら公開された文献に存在することはめったにありません。分子記述子がない場合、化学文献を大規模に理解するには、文献に存在する2D画像から分子記述子を生成する必要があります。光学構造認識アプリケーション(OSRA)やChemSchematicResolverなどの成功した方法では、化学論文の分子構造の位置を抽出し、分子の説明と反応を推測することができます。既存のシステムは効果的ですが、化学者が出力を修正することを期待しているため、教師なしの大規模データマイニングには適していません。 DECIMERによって導入された画像キャプションのタスク定式化を活用して、画像特徴抽出にディープ残余ネットワークを活用するモデルであるIMG2SMIと、分子記述生成にエンコーダーデコーダートランスフォーマーレイヤーを導入します。以前のニューラルネットワークベースのシステムとは異なり、IMG2SMIは分子記述生成のタスクを中心に構築されており、分子MACCSフィンガープリント谷本類似性によって測定される分子類似性予測においてIMG2SMIがOSRAベースのシステムを163%上回っています。さらに、このタスクのさらなる研究を容易にするために、新しい分子予測データセットをリリースします。分子記述生成用の8100万分子を含む
Like many scientific fields, new chemistry literature has grown at a staggering pace, with thousands of papers released every month. A large portion of chemistry literature focuses on new molecules and reactions between molecules. Most vital information is conveyed through 2-D images of molecules, representing the underlying molecules or reactions described. In order to ensure reproducible and machine-readable molecule representations, text-based molecule descriptors like SMILES and SELFIES were created. These text-based molecule representations provide molecule generation but are unfortunately rarely present in published literature. In the absence of molecule descriptors, the generation of molecule descriptors from the 2-D images present in the literature is necessary to understand chemistry literature at scale. Successful methods such as Optical Structure Recognition Application (OSRA), and ChemSchematicResolver are able to extract the locations of molecules structures in chemistry papers and infer molecular descriptions and reactions. While effective, existing systems expect chemists to correct outputs, making them unsuitable for unsupervised large-scale data mining. Leveraging the task formulation of image captioning introduced by DECIMER, we introduce IMG2SMI, a model which leverages Deep Residual Networks for image feature extraction and an encoder-decoder Transformer layers for molecule description generation. Unlike previous Neural Network-based systems, IMG2SMI builds around the task of molecule description generation, which enables IMG2SMI to outperform OSRA-based systems by 163% in molecule similarity prediction as measured by the molecular MACCS Fingerprint Tanimoto Similarity. Additionally, to facilitate further research on this task, we release a new molecule prediction dataset. including 81 million molecules for molecule description generation
updated: Fri Sep 03 2021 19:57:07 GMT+0000 (UTC)
published: Fri Sep 03 2021 19:57:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト