Nature系列串讲:机器学习 —— 研究材料科学的新兴利器


2016-2017年,AlphaGo横扫全世界围棋高手,充分让人们领略到人工智能技术的巨大发展潜力。目前,机器学习已广泛应用于计算机视觉、自然语言处理、数据挖掘、机器人应用等诸多领域,感受到机器学习的强大魅力,材料学家自然也不能错过这个高端大气上档次的神兵利器。事实上,目前机器学习已被研究人员用来进行材料的研究和设计。本文梳理了近几年Nature系列期刊上机器学习与材料科学的联姻,且看机器学习如何在材料领域大显身手!

1.机器学习筛选电催化剂

仅依靠人力在巨大的材料体系中筛选高效二氧化碳还原反应(CO2RR)和析氢反应(HER)电催化剂极为困难,卡内基梅隆大学的Kevin Tran和Zachary W. Ulissi设计了全自动化的筛选方法,结合机器学习和DFT计算,自动搜索金属间化合物的各种表面活性位点对CO及H的吸附能,从而预测具备高反应活性的双金属电催化剂。他们在31种元素中(包括50%的d区元素和33%的p区元素),筛选出54种合金及相应131种表面位点适用于CO2还原,102种合金及相应258种表面位点适用于HER。(1)

图 1 机器学习筛选电催化剂流程示意图

   

作者采用图1所示的工作流程,使用机器学习模型从无限大的设计空间中预测具有最优活性的金属间化合物及相应表面活性位点,并通过自动化的DFT算法计算这些位点对CO和H的吸附能(具有最佳吸附能的位点催化活性更高,CO2还原电催化剂最佳CO吸附能为-0.67eV,HER电催化剂最佳H吸附能为-0.27eV),计算所得的数据存入数据集后继续用于训练机器学习模型,形成机器学习筛选催化剂-自动DFT计算验证-机器学习模型再训练的闭合反馈循环过程,产生的数据库可以自动连续增长,无需人工干涉。

图 2 吸附位点“指纹”

该流程的实现依靠以下步骤,其一要生成吸附位点的搜索空间,作者从一个材料数据库(Material Project)中获得了1499种金属间化合物材料,采用pymatgen(Python Materials Genomic,一个稳定的、开源的用于材料分析的Python库)枚举每种材料的表面,进一步用三角剖分算法枚举每个表面上的吸附位点,从而获得了吸附位点的搜索空间;其二是吸附位点的数值化描述,吸附位点实际是指该位点处的原子排列状况,因此,作者用吸附位点处原子的原子序数(Z),电负性(c),原子数(CN),该元素与吸附物的中间吸附能(DE)等信息,构建了描述吸附位点的数字“指纹”,用于训练机器学习模型及预测位点的吸附能。其三是学习模型的选择和训练,作者采用TPOT工具(一个python机器学习工具,能够自动选择最优模型和参数)来选择模型,并对该模型预测的最优结合能的表面进行DFT计算验证,完成了共42785次DFT运算。作者在两年内不断训练该模型,优化了模型预测的准确率,还将模型搜索空间从20种元素增加到31种元素,预测得到了一系列金属间化合物对CO和H的吸附能,包括19644个位点的CO吸附能及23414个位点的H吸附能,如图3所示。

图 3 机器学习优选的双金属电催化剂

2.机器学习辅助设计高效有机发光二极管

OLED利用绿、红和蓝色子像素制造所有屏幕上肉眼可见的颜色。但OLED的低稳定性和蓝光材料不足等缺点,使得要生产能够发出蓝光的OLED相当困难,目前OLED的制造商主要依靠制造有机金属错合物分子,利用铱等贵金属的磷光加强分子来达成蓝光效果。哈佛大学的Aspuru-Guzik团队希望能够完全使用有机分子制造OLED,它们开发出机器学习算法,在16亿个潜在分子的数据库中,预测可用于OLED的有机分子,并用预测的分子成功制备性能优异的OLED器件。这种结合理论计算,机器学习,化学制备的研发流程,能够显著降低研究成本。(2)

图 4 机器学习筛选流程图(左)及量子化学计算依赖树(右)

作者首先结合机器学习技术和量子化学计算来筛选有机分子,如图4所示。机器学习方面,先从预先生成的16亿个分子中随机挑选出4万个候选者,通过TD-DFT模拟计算了它们的kTADF,并以这些计算数据作为训练集,采用神经网络模型来训练机器学习模型,预测所有分子的kTADF。量子化学计算方面,通过计算候选f和DEST来确定最优性能的分子,其中f >0.1且EST< 0.15 eV的分子约有900种, f > 0.05且EST <0.175 eV约有3000种。

结合机器学习和量子化学计算的结果,可以得到将近2500种候选分子,研究人员们在考虑性能、新颖性、合成难度的基础上投票决定最终用于设计器件的分子。最终合成了如图5所示的几种分子,并构筑了相应的器件测试其性能,所得器件EQE最高可达22%。

图 5 候选分子及构筑地光学器件性能表征

3.机器学习辅助探索晶界结构

晶界结构对功能材料和结构材料的性能有较大影响,在研究晶界处的复杂行为的同时,晶界处的原子结构却仍是个谜,传统的HR-TEM实验观察很难提供足够的晶界原子结构信息,而通过理论计算进行原子模拟缺乏稳定优异的建模方法和计算工具,并且只适用于固定原子数和超晶格的体系。美国内华达州立大学、拉斯维加斯大学、斯托尼布鲁克大学和加州大学戴维斯分校的研究人员设计出一种基于进化算法和机器学习的方法,可以自动搜索可变原子数和可变单元大小的晶界结构。在机器学习算法帮助下,研究人员揭示了新的晶界结构。(3)

常规的g-surface构建晶界的方法建立在固定原子数的基础上,因而不能呈现许多具有不同原子密度的低能量结构,无法充分预测真实的界面状态。而机器学习中的进化搜索算法可通过重排晶核内原子,在边界处添加和移除原子及改变晶界区域尺度等手段,获得一些不同的晶界结构配置。以Cu的Σ5(210)[001]晶界为例,采用进化搜索算法可以计算不同(210)晶面原子比例时对应的晶面能,计算结果表明随(210)原子比例变化,晶界能存在三个最低点,分别对应Kites, Split Kites 及Filled Kites三种晶界结构。此外,对于算法预测的某些晶界结构,存在空穴、间隙原子等缺陷使得预测的晶界能与其理想结构的晶界能差异较大,但实际上这些结构仍对应同一类晶界(上述三种或其他未确定的晶界相),因此,作者计算了这些生成的晶界结构间的相似度,对其进行分类,并通过分类结果揭示了两类新的晶界结构类别(Split Kite及Extended Kite)。

图 6 机器学习预测的晶界结构及其分类

   

图 7 确认的新晶界结构

4.机器学习辅助预测无极材料性能

传统的材料研发由缓慢且艰难的实验试错过程驱动,因此材料科学的重大进展是缓慢而偶然的,且理论上存在10100种材料,也不可能完全通过人工实践探索所有材料的性能。但如今,材料科学的发展带来的巨大信息使得结合材料数据库和机器学习方法驱动材料发现和材料设计并预测材料性能成为可能。北卡罗来纳大学的Alexander Tropsha团队介绍了一种通用的无机晶体材料结构descriptors,可用于机器学习预测材料性能,包括金属/绝缘体分类,带隙能量,体积和剪切模量,德拜温度,热容量和热膨胀系数等。(4)

descriptors在机器学习算法中作用至关重大,是影响模型精确性的重要因素之一,但常规的descriptor只用到相关原子的元素符号特征,这样的descriptor包含的信息有限,应对与材料中复杂化学反应有关的问题时不足以建立足够准确的模型。而利用原子的物理化学性能信息构建descriptor,包含多方面的原子性能特征,因此能够较好的应对复杂模型和预测材料独特的性能。作者构建了一种PLMF (Property-lablled materials fragment) descriptor,包含描述晶体晶胞内原子拓扑特征的“碎片”、标准原子/元素性能特征(如周期表位置、价电子数、电负性、极性等)及晶体形状、尺寸及对称性信息,上述信息组合起来,能够描述每一种独特的材料。作者用上述descriptor和机器学习方法,成功生成了8个预测模型,包括1个用于判别材料的金属/绝缘体类别的分类模型,以及可用于预测绝缘体带隙,体积模量,剪切模量,德拜温度,恒压热容,恒定体积热容和热膨胀系数的7个回归模型,这些模型在预测相应性能时表现优异。

图 8 PLMF descriptor构造示意图

图 9 对8个预测模型的5折交叉验证

5.利用“失败实验”数据预测新材料

新材料的研发是一个充满挑战的过程,伴随着无数次的失败,但正所谓“失败是成功之母”,每一次的失败,也让研究人员离成功更近一步。哈佛大学的Alexander J. Norquist团队利用实验室未成功的水热反应的数据训练机器学习模型,并用得到的模型来预测新的反应,所得的模型能够成功预测新的有机-无机材料的合成条件,合成成功率达89%。(5)

化学领域研究人员发表的文献通常只包括反应成功的例子,但实际上大量未被报道的失败实验同样包含合成条件相关信息,这些失败实验包含的信息对预测反应成功和失败的边界条件也有重大价值。作者收集了大量实验室失败反应的数据,以反应物物理化学性能(如分子质量,元素周期表位置等)及反应条件(如反应物配比、反应温度、环境pH等)为特征,训练了一个SVM模型,该模型预测其测试集的反应结果时,准确率可达78%,对钒-亚硒酸盐体系反应的预测准确率达79%。通过将该SVM模型转换为方便人类理解的决策树模型,还能进一步认识反应相关机理,从而指导新的合成反应。

图 10模板化钒 - 亚硒酸盐晶体的合成实验结果

在已有的实验数据和理论基础支撑下,结合机器学习技术,利用人工智能辅助材料设计,合成,表征及应用研究将极大促进材料领域科学家的研究效率,帮助材料科学快速发展。

参考文献

1.Tran K, Ulissi ZW. Active learning across intermetallics to guide discovery of electrocatalysts for CO2reduction and H2evolution. Nature Catalysis. 2018;1(9):696-703.

2.Gomez-Bombarelli R, Aguilera-Iparraguirre J, Hirzel TD, Duvenaud D, Maclaurin D, Blood-Forsythe MA, et al. Design of efficient molecular organic light-emitting diodes by a high-throughput virtual screening and experimental approach. Nat Mater. 2016;15(10):1120-7.

3.Zhu Q, Samanta A, Li B, E.Rudd R, Frolov T. Predicting phase behavior of grain boundaries with evolutionary search and machine learning. Nature Communications. 2018;9.

4.Isayev O, Oses C, Toher C, Gossett E, Curtarolo S, Tropsha A. Universal fragment descriptors for predicting properties of inorganic crystals. Nat Commun. 2017;8:15679.

5.Raccuglia P, Elbert KC, Adler PD, Falk C, Wenny MB, Mollo A, et al. Machine-learning-assisted materials discovery using failed experiments. Nature. 2016;533(7601):73-6.

本文系 Nano_RC 供稿。

欢迎大家到材料人宣传科技成果并对文献进行深入解读,投稿邮箱: tougao@cailiaoren.com.

投稿以及内容合作可加编辑微信:cailiaorenVIP.

分享到