材料信息学(MI)源于材料科学与数据科学的融合,具有极大地加速材料开发和发现过程的潜力。尽管MI依赖于计算研究和实验研究的数据,但两者的整合仍然具有挑战性。日本Tohoku University大学T. Tomai团队开发了一种基于图神经网络(MPNN)的材料图谱构建方法,通过整合计算数据库(Materials Project)与实验数据库(StarryData2)中的热电材料数据,将高维结构特征降维至二维可视化空间,生成能够反映材料结构相似性与性能分布(如zT值)的材料图谱。该图谱不仅能有效捕捉材料的结构复杂性,识别高性能材料区域,还可通过交互式工具指导实验研究者选择可合成目标材料、推荐合成路径,从而显著加速材料发现过程,为弥合计算设计与实验研究之间的差距提供了新范式。研究成果以A materials map integrating experimental and computational data via graph-based machine learning for enhanced materials discovery为题发表于APL Machine Learning。

一、数据整合方法的创新
实验与计算数据的融合:提出了一种将实验数据(来自StarryData2)与计算数据(来自Materials Project)整合的方法。通过训练机器学习模型预测实验zT值,并将其应用于计算数据库中的材料,构建了一个统一的数据集,克服了两种数据源在格式、内容和可靠性上的差异。
二、图神经网络驱动的材料图谱构建
基于图表示的材料结构建模:使用MatDeepLearn (MDL) 框架,将晶体结构表示为图(节点为原子,边为相互作用),并通过图卷积神经网络(如MPNN、CGCNN等)提取高维结构特征。
材料图谱的可视化:利用t-SNE降维技术将高维特征映射到二维空间,生成材料图谱(materials map),直观展示材料之间的结构相似性与性质分布。
三、结构复杂性的有效捕捉
MPNN在结构表示上的优势:研究发现,MPNN架构在捕捉材料结构复杂性方面表现优异,能生成更具结构区分度的材料图谱,尽管其在预测精度上未必最优。
分支结构分析:图谱中识别出两个明显分支(BR1和BR2),分别对应高复杂度(如Ga(Ag₃Se₂)₃)和低复杂度(如Bi₂Te₃)结构,并通过元素组成、原子位数、体积等属性进行验证。
四、材料图谱的实用性与可解释性
聚类分析与元素分布:通过k-means聚类(k=10)和元素频率分析,揭示了不同区域材料的组成规律,帮助识别高性能材料区域。
交互式探索工具:提供基于Plotly的交互式图谱,支持多维度数据探索(成分、结构、性质等),增强用户体验与实用性。
合成路径建议:通过结构相似性推荐合成路径(如Ge₃(Te₄As)₂与Sn(SbTe₂)₂结构相似,可借鉴其合成方法),加速实验验证。
五、系统性的模型比较与分析
多种图神经网络的对比:系统评估了MPNN、CGCNN、MEGNet、GCN、SchNet等模型在zT预测和图谱生成上的表现,明确MPNN在结构表示上的优势。
训练机制分析:通过控制NN和GRU模块的开关,验证了各组件对图谱结构组织的重要性。

图1:本研究中采用的数据流和数据分析流程示意图

图2:由MDL使用MPNN架构生成的材料图谱,用于基于图论的材料属性建模。

图3:基于图2中使用的相同数据生成的材质图

图4:(a) 通过k-means聚类(k=10)得到的按聚类编号着色的材料图。(b-k) 每个聚类中包含的材料的元素组成分析结果。
论文地址:https://pubs.aip.org/aip/aml/article/3/3/036104/3355901/A-materials-map-integrating-experimental-and