突破!!!Nat. Mach. Intell:机器智能学习方法助力化学家精准预测有机反应结果


突破!!!Nat. Mach. Intell:机器智能学习方法助力化学家精准预测有机反应结果

01、导读

在化学界一个公认的事实就是,准确预测化学反应结果对于化学研究至关重要。现有实验研究虽然已经合成了诸多新分子,且人类在其应用领域的探索热情高涨,但这往往需要专业的化学家来准确预测化学反应的结果。基于数字信息时代自动化研究的飞速发展,采用机器学习的方法来预测有机反应结果引起了科研界的关注,这不仅能够辅助化学家预测反应结果,还大大推动了设计新分子的研究。

尽管现有的反应预测模型(基于序列的模型或基于图的模型)在公共反应数据集上表现出不错的准确性,但它们仍然以机械方式预测有机反应结果,要么翻译化学语言,要么按顺序编辑分子图。而与之形成对比的化学家们则是通过识别反应中心和分析电子转移以及构型变化来预测反应产物。

02、成果掠影

在此,韩国国际科学技术院化学与生物分子工程系Yousung Jung教授团队设计了一种广义反应模板(generalized reaction template, GRT),这是一种仅通过原子映射法描述反应前后原子构型局部变化,而没有特定原子类型或官能团信息的反应模板。基于该模板,研究设计了一种化学驱动的图神经网络机器智能平台来预测反应产物,研究人员将其命名为LocalTransform。与专业化学家相似的是,LocalTransform能够通过识别反应中心来预测反应结果,并根据局部化学环境变化然后通过全局注意机制的选择性来识别反应原子。最终反应结果由模板分类器进行预测,该分类器可为化学反应中心提出最可能的构型变化,然后实现精准的结果预测。此外,研究人员还总结了LocalTransform在预测有机反应结果方面的三个重要突破:

1、研究提出的基于GRT构建的机器学习平台能够准确描述测试反应中99.7%的实验结果,而这之前最受欢迎的前100个模板仅能描述94.6%,从而证明该研究在解决传统模板覆盖率低、可扩展性差等问题方面走出了关键一步。

2、LocalTransform对于Top-K产品的预测精度相比之前基于图的方法有了显著的提升,Top-K准确率是用来计算预测结果中概率最大的前K个结果包含正确标签的占比。

3、该模型是一种基于分类的方法,它具有很强的分数-准确度相关性,因此用户能够理解不确定性并信任该机器预测。

相关研究成果以“A generalized-template-based graph neural network for accurate organic reactivity prediction”为题发表在国际著名期刊Nature Machine Intelligence上。

03、核心创新点

1、研究提供了一种广义反应模板(generalized reaction template, GRT),基于该模板,研究设计了一种化学驱动的图神经网络机器智能平台(LocalTransform)来预测反应产物。

2、LocalTransform能够通过识别化学反应中心来预测反应结果,并根据局部化学环境变化然后通过全局注意机制的选择性来识别反应原子,通过精准的构型预测分析,准确描述了测试反应中99.7%的实验结果。

3、在USPTO-480k数据集上训练和评估的LocalTransform产生了良好的Top-1和Top-2精确匹配准确度值,分别为90.8%和94.8%,优于专家预测。

04、数据概览

图1 GRT的提取工艺及实例 © 2022 Springer Nature

(a)GRT提取的整个过程,反应中心首先是通过比较反应前后每个原子电子构型的变化来确定的;

(b)酮基转化为仲醇基的羰基还原反应;

(c)由A1原子负电荷引发的还原反应;

图2 Localtransform的整体预测综合解决方案 © 2022 Springer Nature

(a)Localtransform模型的体系结构;

(b)步骤7的更详细方案,即收集预测的键和AoTs以描述反应中心和GRTs;

图3 Top-1的精确匹配准确率和反应百分比作为预测的函数 © 2022 Springer Nature

(a,b)0和1之间(a),0.9和1之间(b);

4 模型预测分数大于0.99但匹配失败的例子 © 2022 Springer Nature

5 在人类基准数据集上进行Localtransform预测 © 2022 Springer Nature

(a)与WLDN、Molecular Ttransformer和制定人类基准数据集的人类专家相比,Localtransforme的Top-1精确匹配准确度最高,该数据集由80个反应和各种罕见的反应模板库组成;

(b)与a中相同的数据分析,但基于本工作中提取的GRT进行了分组;

(c-g)在 80 个反应中,Localtransforme 的 5 个“不正确”预测,反应编号后显示了Ground-truth GRTs 的受欢迎程度,显示了Localtransforme(蓝色)预测的反应中心、真实产物(橙色)以及预测的反应中心是否与真实反应中心相同(红色);

05、成果启示

综上所述,该研究提出了一种新的机器智能方法LocalTransform,它通过识别反应中心并应用数据驱动的一般反应规则来预测有机反应结果。在USPTO-480k数据集上训练和评估的LocalTransform产生了良好的Top-1和Top-2精确匹配准确度值,分别为90.8%和94.8%。在人类基准集上, LocalTransform要优于人类专家预测。尽管该研究模型的预测分数很高,但对几个“错误”预测的例子的案例研究表明,该系统仍有很大的改进空间。此外,该研究方法的准确性在很大程度上受到反应映射质量以及数据集中反应多样性和丰富性的限制。因此,该研究有望在未来通过使用更大的数据集和高质量的原子映射方法(如Mappte或RXNMapper)来进一步改进。凭借出色的实验结果和LocalTransform的优点,研究人员设想,如果数据集中提供了相应的元数据,该模型甚至有望用于预测有机反应副产物和反应产率,如果成功,这将是一个极大的突破,希望未来能有持续的报道产生。

文献链接:A generalized-template-based graph neural network for accurate organic reactivity predictio,2022https:/ / doi.org/10.1038/ s42256-022-00526-z

 

本文由LEB供稿。

分享到