北大潘锋教授团队的2021年:基于材料大数据和AI发现材料基因与预测新材料


之前我们梳理了北大潘锋课题组2021年在电池、界面结构电化学方面的研究成果,今天为大家介绍基于材料大数据和AI发现材料基因与预测新材料的成果。

1.Nature Communications.代数图论与机器学习实现定量预测分子特性

深度学习方法往往需要大量的数据集来进行训练,而通过实验或第一性原理计算获得的高精度数据在所有数据中仅占少数,因此,我们需要拓展深度学习方法来产生高质量的分子描述符以提升预测的准确性。本研究原创设计了一种基于代数图论辅助的深度学习框架,利用自然语言处理中的模型实现了基于自监督学习方法的预训练。该方法将大量无标签的分子数据利用起来,同时借助代数图论方法补充结构的三维信息,从而提高对小数据样本的分子特征预测能力。本工作中发展的双向转化器框架,通过融合代数图论方法产生的分子描述符和Transformers产生的分子描述符表,实现两种分子信息间的互补,借助决策树、多任务学习和深度神经网络,实现下游任务中对分子特性的预测。本工作在八个分子数据集上验证了该框架的高效性,其中涉及定量毒性、物理化学和生理学数据集。该研究以“Algebraic graph-assisted bidirectional transformers for molecular property prediction”为题发表在Nature Communications上。DOI:10.1038/s41467-021-23720-w。

2.Advanced Energy Materials 基于作者消歧的材料知识图谱构建与应用——再论LiFePO4的发现与应用过程

将科学文献中的文本信息转化为结构化的知识,并结合知识关联、融合、推理等方法,构建出知识图谱,可以帮助研究者准确而高效地获取领域内信息。本研究结合机器学习和依赖匹配算法,首次提出了一套准确高效的同名消歧以及信息搜索框架,在材料科学领域建立了主体(作者)与客体(材料)之间的对应关系,从而构建了名为MatKG的材料知识图谱。该工作以锂电池正极材料LiFePO4为例,展现了MatKG的自动化分析流程。通过MatKG,可以生成该材料的发展里程碑,追踪其研究趋势,从而帮助研究者探索潜在的知识联系以及有效处理复杂多样的关联分析,发现隐藏在数据和文本中的有价值的信息。该研究以“Construction and Application of Materials Knowledge Graph Based on Author Disambiguation: Revisiting the Evolution of LiFePO4”为题发表在Advanced Energy Materials上。DOI:10.1002/aenm.202003580。

3.WIREs Comput Mol Sci. 适用于机器学习的材料结构编码方法

材料领域机器学习研究中最关键的一步是对材料的结构数据进行编码,使之转化为机器学习模型中的特征,模型的预测精度在很大程度上由该特征所决定。相比于小分子物质,周期性的晶体材料往往需要更精巧的结构编码方法,才能对材料的局域结构环境和全局结构信息进行有效融合。本文梳理了近年来具有代表性的晶体结构编码方法,其中重点分析了结构图、库伦矩阵、拓扑描述符和倒空间特征四类方法。文章对比了它们在研究晶体结构性质中的优缺点,并对结构编码方法的优化和创新方向提出了展望。该综述以“Encoding the atomic structure for machine learning in materials science”为题发表在WIREs Computational Molecular Science上。DOI:10.1002/wcms.1558。

4.npj Comput. Mater. ML材料性能预测—代数拓扑表达晶体结构

材料结构的特征提取是材料学领域机器学习应用中的关键要素。拓扑数学中的持续同调可以将多尺度几何信息嵌入拓扑不变量从而将几何分析与拓扑分析连接起来,通过记录原子尺寸变化过程中系统拓扑不变量的变化可以得到结构的拓扑指纹,该指纹可被应用于材料结构的特征。本研究提出了原子特殊的持续同调方法,考虑晶胞中每个原子周围不同环境构成的持续同调,从而在拓扑不变量中引入原子信息。基于该特征所构建的晶体化合物机器学习模型,可以准确预测材料的形成能,误差仅为61 meV/atom。此外,团队还对预测偏差较大的结构进行了详细分析,发现特殊氧化态和结构畸变的重要作用。该研究以“Topological representations of crystalline compounds for the machine-learning prediction of materials properties”为题发表在npj Computational Materials上。DOI:10.1038/s41524-021-00493-w。

5.J. Phys. Chem. Lett. 从数亿个分子中提取预测性表示

由于分子结构的复杂性,特征提取一直是分子预测课题中的关键。有监督机器学习模型需要大量的标签数据,但这在实际中往往难以实现,这导致训练只能在小而分散的数据集上进行。本研究发展了一套自监督学习方法,对各个数据库中总计七亿个无标签的小分子进行预训练,从特定任务中的分子序列提取特征。通过不同数据集的结合构建了三个模型,进而说明无标签分子自监督学习的重要性。本文还提出了基于数据特征自动化针对特定任务选取最优模型的方法。该研究以“Extracting Predictive Representations from Hundreds of Millions of Molecules”为题发表在Journal of Physical Chemistry Letters上。DOI:10.1021/acs.jpclett.1c03058。

6.J. Mater. Inf. 无机固体材料反向设计的生成模型

根据所需材料性质反向预测材料的成分与结构的过程被称为“反向设计”。目前的反向设计方法包括第一性原理高通量计算,以遗传算法为代表的全局搜索方法,和人工智能技术中的生成模型(generative models)。相比于前两者,生成模型可以更有效地利用已建立的材料结构数据库,从已知材料中提取信息以设计出新材料的成分和结构。生成模型中最典型的两类代表是变分自编码器(VAE)和生成对抗网络(GAN)。本文针对VAE和GAN探讨了在进行晶体材料反向设计过程中两种方法的优势和所面对的困难,分析了包括结构编码方法和损失函数优化等关键课题。文章最后对生成模型的改进方向提出了展望。本综述以“Generative models for inverse design of inorganic solid materials”为题发表在Journal of Materials Informatics上。DOI:10.20517/jmi.2021.07。

7. ACS Appl. Mater. Interfaces.XO6结构基元调控LiX2(PO4)3增强离子传输和电化学稳定性

具有钠超离子导体结构NASICON的LiX2(PO4)3 (LXP)材料是主要的固态电解质之一。然而,现在大多数的工作都集中在Al掺杂的LiTi2(PO4)3 (LATP)材料上,而忽略了其他LXP结构。基于以上,潘锋教授团队与广东工业大学张丙凯合作研究了一系列LXP材料进行了系统的结构特征、离子传输和电子结构方面的研究。研究结果发现XO6结构基元能够显著调节离子传输能垒和电化学窗口,其中LiZr2(PO4)3 (LZP)具有潜在的高离子电导率和高电化学稳定窗口,此外,Ca或Mg掺杂可进一步显著提高LZP固态电解质室温锂离子电导率。这项工作促进人们把目光聚焦到LZP固态电解质上,同时有助于人们理解NASICON固态电解质中结构-性能的关联关系。文章发表在ACS Appl. Mater. Interfaces 2021, 13, 43, 50948–50956,题为Tuning Site Energy by XO6 Units in LiX2(PO4)3 Enables High Li Ion Conductivity and Improved Stability。

8.ACS Appl. Mater. Interfaces. 混合阳离子效应的氧化物电解质材料Li5-xM1-xM′xO4 (M = Al Ga and M′ = Si Ge)

在全固态锂离子电池中探索具有良好电化学稳定性和高锂离子电导率的新型固态电解质材料是技术发展的关键。潘锋教授团队与广东工业大学张丙凯合作研究了α-和β-Li5AlO4 (α-和β-LAO)两种铝酸锂为结构框架的材料,该结构具有正交晶体结构和孤立的AlO4四面体单元。计算发现该体系具有较大的带隙、低迁移势垒(0.30-0.40 eV和良好的电化学稳定性窗口[0.01-3.20 V]。同时研究了Li4.6Al0.6Si0.4O4 (LASO)、Li5Ga4 (LGaO)和Li4.6Ga0.6Ge0.4O4 (LGaGeO)化合物的电化学稳定性、H2O/CO2稳定性和锂离子迁移率。研究者认为LAO在离子电导率和电化学稳定性之间具有良好的平衡,有希望成为新的固态电解质材料。文章发表在ACS Appl. Mater. Interfaces 2021, 13, 51, 61296–61304,题为Potential Solid-State Electrolytes with Good Balance between Ionic Conductivity and Electrochemical Stability: Li5-xM1-xM′xO4 (M = Al, Ga, and M′ = Si, Ge)。

9.J. Mater. Chem. A,. 基于bcc阴离子点阵的Li10SiP2O12 (LSPO)固态电解质材料研究

Li10MP2S12 (LMPS, M = Ge, Sn, Si)高离子电导率的一个主要结构因素为体心立方(bcc)阴离子框架。为了充分利用该bcc阴离子框架结构,我们通过阴离子替换,构建了氧框架Li10SiP2O12 (LSPO)和Li19Si2P4O23Cl (LSPOCl)结构,计算发现与硫化物相比,它们具有更宽的电化学稳定性窗口,且在负极侧形成离子导电但电子绝缘相。 bcc氧离子点阵允许Li在相邻四面体位置以低迁移势垒(~0.30 eV)协同迁移,这是快速锂离子导体最理想的迁移方式。 卤素Cl的加入增加了Si/P和Cl原子间的杂化,进一步促进了锂离子的迁移。 具有bcc型阴离子骨架的LSPO和LSPOCl氧化物可能是平衡电化学稳定性和离子电导率的可行方法。文章发表在J. Mater. Chem. A, 2021, 9, 22952-22957,题为Balancing stability and li-ion conductivity of Li10SiP2O12 for solid-state electrolytes with assistance of body-centered cubic oxygen framework。

本文由潘锋教授团队供稿。

分享到