武汉大学郭宇铮&剑桥大学张召富等MRE封面文章: 机器学习加速理论计算指导复杂体系催化剂的设计


基于第一性原理的理论计算对于指导催化剂的设计有着重要的意义。然而第一性原理计算有着十分昂贵的计算成本,阻碍了许多复杂体系催化剂的进一步探索。有鉴于此,武汉大学郭宇铮教授剑桥大学张召富博士等人介绍了一种利用机器学习算法,大大减少计算成本以进行更广泛研究的策略,并开发了相应的程序包DMCP并将其开源(https://github.com/XuhaoWan/DMCP)。近日,相关论文以题为“A Density-functional-theory-based and Machine-learning-accelerated Hybrid Method for Intricate System Catalysis”发表于Materials Reports: Energy。本文第一作者为武汉大学硕士研究生万旭昊。

本工作被收录在Materials Reports: Energy期刊,作为“能源材料中的机器学习与人工智能专刊”的封面文章发表。MRE致力于发表与能源和环境等与当代社会重大挑战相关的重要成果,旨在促进与能源相关的新材料、新技术、新器件、新系统研究。本专刊旨在推动能源材料领域机器学习和人工智能方向的最新进展。

【研究背景】

密度泛函理论 (DFT)是研究和预测材料的几何结构、机械性质、电子结构和反应能量时最常用的计算化学手段。过去几十年中,研究者们已经开发了许多基于DFT的量子化学模拟程序并应用,例如VASP、CASTEP、QE等。这些第一性原理程序在探索材料的众多物理和化学特性时表现出很高的准确性和可靠性。然而,这些基于 DFT 的程序的计算成本非常昂贵,并且一旦所研究的系统大到一定程度,算力限制将使得其几乎不可能实现。

催化是工业社会的重要组成部分,因为它提供与我们日常生活密切相关的大量工业产品,如肥料、药物和燃料。而理论计算可以获得在实验中很难得到的重要信息,如分子的过渡态、反应的化学趋势和变化,帮助研究人员设计新的高活性催化剂。

但目前,许多复杂化学体系如双原子催化剂,高熵合金和复杂晶体的研究也受到计算能力的限制。有两种思路解决这些重大挑战,一是提高进一步提高CPU的计算能力以突破限制,另一个是开发新的算法减少总的计算需求。本文尝试用第二种思路解决这一问题。

【研究简述】

1. 机器学习中的 (a) 线性模型、(b) 核回归模型、(c) 决策树模型和 (d) 神经网络模型的示意图。

本文首先介绍了机器学习的通常流程,从确定需要解决的问题开始,然后获取数据,对数据进行特征化,最后建立机器学习模型。解决问题可以通过预测关键值、模型的深入分析,甚至是对问题底层机制的理解。此外,在催化领域,机器学习过程经常使用特定的物理或化学特性,例如极限电位、吸附能、选择性、d带中心等。催化研究中通常将这些特征映射到数据集的标签来建立机器学习模型因此常用的是有监督的机器学习算法而不是无监督算法。随后简要概述了最流行的几种机器学习算法类型,并讨论了它们对不同目标的适用性,如图1所示。

2. 基于 DFT 和 ML 加速方法在复杂系统中催化应用的示意图。 蓝色虚线框表示该步骤是可选的。

在本文的理论方法部分,我们简单介绍了十种常用的机器学习算法例如GBR, KNR, FNN等,同时介绍了常常用来评估模型准确性的两个参数均方根误差RMSE和确定性分数R2。如图2所示,具体介绍了机器学习模型建立的过程。首先,应用特征工程从任一 DFT 计算生成的或者从材料数据库(如 Materials Project、C2DB等。)获取的数据中确定输入数据的特征然后应用得到的数据集进行模型训练。模型精度可以通过数据预处理、数据集拆分、重复试验和交叉验证来提高,通过不断的模型训练和测试,可以建立和选择出优秀的模型。性能最佳的模型可用于预测未包含在训练数据中的其他材料的相应催化性能。最后,结果分析有助于确定反应的主要描述符并帮助理解机器学习模型。

3. 简单介绍了应用于催化领域的机器学习模型中的特征工程。原子特征如原子序数、原子半径、相对原子质量和键长等;电子特征如d和p轨道的电子数,d带中心,氧化物形成焓和泡利电负性等; 系统特征如系统中某一部分的电荷转移、吸收能和有效配位数等都可以被选定为机器学习模型的特征并进行进一步的研究。

在构建机器学习模型时,特征工程是最重要的步骤,因为它很大程度上决定了模型的最终表现。在催化领域,特征工程应满足几个要求:特征应该能够独立地描述系统的部分电子结构或原子结构,也应该有效描述活性位点周围的化学配位环境,同时应该可以通过很少的DFT计算或直接从可用的数据库查询中获得,此外它们应该在物理上直观以保证模型的鲁棒性。因此,通常将以三个类别来建立不同化学系统的输入特征,如图3所示。

随后,以双原子过渡金属酞菁(Pc)催化剂为例,文章介绍了我们的新型DFT-ML方法具体应用。如图4(a)所示,由于酞菁的特殊中空结构可以提供完美的位点来容纳具有高化学稳定性的TM原子,双原子过渡金属酞菁也因此成为天然的双原子催化剂。图4(b)展示了双原子过渡金属酞菁催化剂的数百种组合可能性,这表明机器学习方法的必要性。

4. (a) 双原子过渡金属酞菁催化剂的结构。(b) 研究的所有过渡金属元素。(c) 使用双原子过渡金属酞菁催化剂作为电催化剂的CO2RR反应途径示意图。

图5的直方图中描述了机器学习模型的平均R2得分和RMSE,可用于直接比较模型性能,以便为后续工作选择性能最好的模型。由于越低的RMSE和越高的R2意味着越好的性能,可以看出,GBR模型的性能非常出色,训练过程中 RMSE 仅为0.08 eV,R2得分为 0.96,而这两个值在测试过程中略有变化,分别为0.12 eV和 0.8。因此,我们在后续的研究中采用整体性能最佳的GBR算法进行活性预测与机理分析。

5. 分别来自训练集和测试集的 GBR、KRR 和 RFR 模型的(a)RMSE和(b)R2得分。

图6(a)表明GBR模型的预测结果与DFT计算得到的实际值非常接近,再一次验证了GBR模型的出色性能。通过文章的SI内容可知,GBR预测得到的拥有最佳活性的银钴双原子酞菁,实际活性也非常优异。通过Pearson相关系数图与特征重要性饼图分析可知,两种过渡金属原子的电负性是双原子过渡金属酞菁CO2RR电催化剂最重要的描述符。

6. (a) DFT 计算值与GBR 模型预测值的散点对比图。 (b) 20个选定特征的 Pearson 相关系数图。(c) 20 个特征的特征重要性。

【程序介绍】

我们开发了相应的软件包DMCP(https://github.com/XuhaoWan/DMCP)来为实现上述基于DFT理论和机器学习加速的DFT-ML方案,用于解决一系列更加复杂的材料设计与性能预测问题。 DMCP软件包可以预测复杂系统(如双原子催化剂,高熵合金)的催化性能,并通过适当的算法选择和数据特征揭示确定其潜在催化活性的内在描述符。

主要特性

1.十种机器学习算法:GBR、KNR、SVR、GPR、FNN、RFR、ETR、KRR、LASSO和ENR。

2.多种提高模型准确性的方法:数据集拆分、交叉验证、重复试验。

3.可用于进一步研究的可视化模块。

【流程框架】

上图清楚地列出了DMCP的详细流程。首先通过特征工程选定全面的、恰当的、准确的模型输入特征。随后按照选定特征,通过第一性原理计算与已有数据库建立整个数据集并转化为csv格式。对原始数据集进行预处理并拆分为训练集与测试集后,首先在训练集上建立选定的算法对应的机器学习模型,随后参考测试集上的表现,通过重复试验、交叉验证、参数调节等方式进一步优化模型表现。

训练完成之后,选定几种算法中模型性能最佳的一种以进行进一步研究,如活性预测与机理分析。DMCP集成了多种可视化方法,包括模型表现对比条形图、R2得分小提琴图(重复试验)、训练数据集和测试数据集散点图(模型选定后)、Pearson相关系数图和特征重要性图。可视化模块对于整个工作流程的许多部分是可选的,对于模型选择和结果分析很有用。最后程序将输出结果,包括csv格式的数据以及与可视化模块相应的图片。

【程序应用及推广】

DMCP具体的输入文件格式与各参数的详细意义可查阅说明文件(https://github.com/XuhaoWan/DMCP/manual)。软件的下载、安装、流程的实现以及几个功能应用的简单例子可参考具体教程(https://github.com/XuhaoWan/DMCP/tutorial)。软件本身及其对应的使用手册、教程仍在持续更新,欢迎大家关注。

实际上,DMCP构建了从原始数据到机器学习模型的整个流程框架,因此并不仅仅限于应用在复杂系统催化这一领域。通过适当的算法选择与特征工程,DMCP可应用在更广的学科交叉领域,例如凝聚态物理、纳米药物开发与物质空间探索等。

【文献信息】

Wan, Z. Zhang*, W. Yu, and Y. Guo*, A density-functional-theory-based and machine-learning-accelerated hybrid method for intricate system catalysis. Materials Reports: Energy. doi.org/10.1016/j.matre.2021.100046.https://www.sciencedirect.com/science/article/pii/S2666935821000811

【补充】

郭宇铮教授课题组长期招收计算材料学、新型半导体材料与器件、光催化新能源器件等方向的博士后等研究人员,和硕士/博士研究生,详情请查询招聘的历史链接: 武汉大学郭宇铮教授课题组招聘博士后与重点资助博士后https://mp.weixin.qq.com/s/e7GT-O4HBneQypgVJE6jKQ和武汉大学郭宇铮教授课题组招收硕博研究生与招聘博士后https://mp.weixin.qq.com/s/L2ZZ6GWaiTJBFC3qucRA2A

郭宇铮教授课题组近期文章汇总:

[1] (Cover paper) X. Wan, Z. Zhang*, W. Yu, and Y. Guo*, A Density-functional-theory-based and Machine-learning-accelerated Hybrid Method for Intricate System Catalysis, Materials Reports: Energy 25, 100046 (2021) https://doi.org/10.1016/j.matre.2021.100046

[2] X. Wan, Z. Zhang*, H. Niu, Y. Yin, C. Shao, and Y. Guo*, Machine-Learning-Accelerated Catalytic Activity Predictions of Transition Metal Phthalocyanine Dual-Metal-Sites Catalysts for CO2 Reduction, J. Phys. Chem. Lett. 12, 6111 (2021)

[3] H. Niu#, Zhaofu Zhang#, X. Wang, X. Wan, C. Kuai*, and Y. Guo*, A feasible strategy for identifying single-atom catalysts towards electrochemical NO-to-NH3 conversion, Small (2021) DOI: 10.1002/smll.202102396

[4] Z. Wang#, Z. Zhang#, S. Liu, J. Robertson, and Y. Guo*, Electronic properties and tunability of the hexagonal SiGe alloys, Appl. Phys. Lett. 118, 172101 (2021)

[5] H. Niu#, X. Wan#, X. Wang, C. Shao, J. Robertson, Z. Zhang*, and Y. Guo*, Single-Atom Rhodium on Defective g-C3N4: A Promising Bifunctional Oxygen Electrocatalyst, ACS Sustainable Chem. Eng. 9, 3590, (2021)

[6] Y. Yin, Z. Zhang*, H. Zhong, C. Shao, C. Zhang, J. Robertson, and Y. Guo*, Sub 5 nm Tellurium Nanowire Gate–All–Around MOSFETs from First Principles, ACS Appl. Mater. Interfaces, 13, 3387 (2020)

[7] H. Niu, Z. Zhang*, X. Wang, X. Wan, C. Shao, and Y. Guo*, Theoretical Insights into the Mechanism of Selective Nitrate-to-Ammonia Electroreduction on Single-Atom Catalyst, Adv. Funct. Mater. 31, 2008533 (2020)

[8] Z. Wang, Z Zhang, C. Shao, J. Robertson, S. Liu*, and Y. Guo*, Defects and Passivation of the Sub-oxide Layers at SiO2/4H-SiC(0001) Interface by First-Principles Calculation, IEEE Trans. Electron Devices 68, 288 (2020)

[9] X. Wang, H. Niu, Y. Liu, C. Shao, J. Robertson, Z. Zhang*, and Y. Guo*, Single-Atom Catalysis for CO2 Electroreduction on Graphene: A First-Principles Study, Catal. Sci. Technol. 10, 8465 (2020)

[10] X. Wan, H. Niu, Y. Yin, X. Wang, C. Shao, Z. Zhang*, and Y. Guo*, Enhanced Electrochemical Oxygen Evolution Reaction Activity on Natural Single-atom Catalyst Transition Metal Phthalocyanine: The Substrate Effect, Catal. Sci. Technol. 10, 8339 (2020)

[11] S. Xu, Y. Yin, H. Niu, X. Wang, C. Shao, K. Xi, Z. Zhang*, Y. Guo*, Adsorption and diffusion of alkali atoms on FeX2 (X=Se, S) surfaces for potassium-ion battery applications, Appl. Surf. Sci. 536, 147774 (2020)

[12] H. Niu, X. Wang, C. Shao, Z. Zhang*, and Y. Guo*, Computational Screening Single-Atom Catalysts Supported on g-CN for N2 Reduction: High Activity and Selectivity, ACS Sustainable Chem. Eng. 8, 13749 (2020)

[13] Z. Wang#, Z. Zhang#, C. Shao, J. Robertson, S. Liu*, and Y. Guo*, Tuning the high-κ oxide (HfO2, ZrO2)/4H-SiC interface properties with a SiO2 interlayer for power device applications, Appl. Surf. Sci. 527, 146843 (2020)

[14] Y. Yin, C. Shao, C. Zhang, Z. Zhang*, X. Zhang, J. Robertson and Y. Guo*, The Anisotropic Transportation Property of Antimonene MOSFET, ACS Appl. Mater. Interfaces, 12, 22378 (2020)

[15] (Hot paper) H. Niu, X. Wang, C. Shao, Y. Liu, Z. Zhang*, and Y. Guo*, Revealing the oxygen reduction reaction activity origin of single atoms supported on g-C3N4 monolayers: a first-principles study, J. Mater. Chem. A 8, 6555 (2020)

[16] J. Lyu#, J. Pei#, Y. Guo#, J. Gong, H. Li*, A New Opportunity for 2D van der Waals Heterostructures: Making Steep‐Slope Transistors, Adv. Mater. 32, 1906000 (2019)

本文由作者团队供稿。

分享到