Nature封面刊文:人工智能将要重塑材料科学


Material-genome-feature-illo-ONLINE

最近火到不行不行的人工智能,引起了全球人类的关注。其中,有人期待人工智能带来更大的便利,同时也有人担忧人工智能会不会抢走自己的饭碗,甚至于未来《终结者》中的情形将发生。

那么现在,担忧自己的饭碗的可能又要加入一部分材料科研工作者了。5月4日,Nature封面刊登题为《人工智能将创造更优秀的材料?》(《Can artificial intelligence create the next wonder material?》)的文章。一部分科研人员认为人工智能将给材料科学带来革命性的改变。

该文章认为,通过计算机建模和机器学习技术,可以很快地根据人们所需要的性能预测出相应候选材料。因此,科学家们将不再需要瞎猫撞死耗子般地制作新材料,而是按照计算机计算结果的指导,制作出相应候选材料并测试,从而加快了新材料的研发的速度和效率。

不过,人工智能变革材料科学研究方法尚存在不少问题:一是受制于材料数据、材料性能控制因素、计算能力,目前仅对少部分材料奏效。二是要计算机预测的材料,并不一定能够在实验室成功合成乃至规模量产,这个过程可能会很长。

以下是该文章的内容:

这是一个堪比最极客的画面:当游客驻足Nicola Marzari的办公室,他会迫不及待地展示一台屏幕上不间断地滚动着数字和符号的智能手机,“从2010年开始,我的手机正在实时地计算硅的电子结构。”

Marzari是供职于洛桑联邦理工学院的物理学家,他的手机仅需40秒就可以完成超级计算机花费数小时的量子力学计算。此举展示了理论计算在过去数十年的飞跃,同时也展示了未来改变材料科学的潜能。

目前材料科研的方法是靠运气碰到一种新材料,然后在实验室精心测量它的性能。Marzari和他的同行正在用计算机建模和机器学习技术生成一个数以万计的候选材料库。即使是失败实验所得到的数据也可以提供有效参考。虽然大量候选材料是完全假想的,但是工程师们可以通过搜索预期性能筛选出值得合成和测试的材料。例如他们可以限定材料作为导体或绝缘体的性能,是否有磁性,可抗多高的温度和压力等等。

行业先锋、加州大学伯克利分校材料科学家Gerbrand Ceder认为它将是对发现材料的速度和效率的一个极大飞跃。他指出我们仅仅知道现有材料1%的性能,并以磷酸铁锂为例。该材料合成是在20世纪30年代,但直到1996年才发现它是现有锂离子电池绝佳的替代材料,“因为没有人测它的电压”。

世界上目前至少有三大材料数据库,保存有数万或者数十万材料的数据。Marzari的材料云项目在今年下半年运行,由此吸引了更广泛的关注。伦敦帝国学院副院长、材料科学家Neil Alford给以评价道“我们正在目睹一个实验者想要的理论者传递的东西的聚集。”他目前尚未隶属于任何材料数据库项目。

但支持者迅速地指出,从计算机预测到现实世界技术这个过程并不容易。现存的材料数据库远远称不上收录所有已知材料,罔论所有可能材料。由此,靠数据库驱动工作或许将对某些材料有用,另外一些则不然。即使是计算机标出了一种可能材料,但是实验室要做出来又有好几年。Ceder认为“相比于能做什么,我们更了解想要什么。”

尽管如此,研究者们仍然相信这是一个有待发掘的财宝,并在电子、能源、机器人、医疗和交通方面连带创新。芝加哥材料计算科学家Giulia Galli介绍“我们是在将谜题的不同部分拼凑在一起,当所有部分凑对位置,材料的预测就会成真。”

基因组计划的激励

Ceder关于利用大量数据驱动材料研究的设想大约成熟于21世纪初,那时他供职于Massachusetts Institute of Technology (MIT),他的想法很大程度上受到人类基因组计划的启发。

Ceder解释道:“人类基因组本身并不能用于材料研究,不过他却为材料研究提供了一种新的方法。”材料学者能否借鉴基因学者们的经验,建立材料基因组即解码材料的不同组成成分和性能的对应关系——就像解码生物性状和DNA碱基配对的对应关系一样。

Ceder认为:想要实现上述过程,解码必须关注于给定材料的构成原子,电子以及空间排布规律(晶体结构)。在2003年,Ceder和他的团队首次展示了如何利用量子力学计算的基础数据库预测一种合金最有可能的晶体结构,这是在商业中探索一种新材料的关键数据。

过去,这些计算非常复杂,即使使用超级计算机也很难实现。这种计算机制必须透过一系列复杂的试验点以及谬误点直指物质的基础状态即是物质能量最低,受力平衡的晶体结构和电子排布。但是在Ceder2003的文章,研究人员描述了一种捷径。研究人员首先计算了相同晶体结构的二元合金,而后设计了一种“学习机制”算法,通过该算法新的计算可以从二元合金中调取模板,计算出新材料最可能的基础状态。这种算法运行良好,它大幅缩短了计算时间。

raphic-onlnine

“那篇文章介绍了一种建立公共数据库探究材料性质的新方法,我们所需要做的是填补数据库的空白”Stefano Curtarolo解释道。他于论文发表的同一年离开Ceder课题组,在Duke大学组建了自己的实验室。这一想法直接催生了两项独立计划的产生。在2006年,Ceder在MIT成立了材料基因组计划,他们使用优化后的算法预测锂基材料在电动车电池上应用的相关性能。截止到2010年,这项计划已经预测了20000种化合物。“我们从现有材料入手,调整了他们的晶体结构,把一种成分从一处挪到另一处并计算可能发生的现象”,Kristin Persson解释道,她在Ceder课题组工作到了2008年。

与此同时,在Duke,Curtarolo 成立了材料基因组中心,他们着重于探究合金。通过与 Brigham Young大学Israel's Negev Nuclear Research Center的合作,他于2003年成功为材料基因组引入了,AFLOW系统,该系统可自动根据已有的晶体结构技术新的结构。

无论是原课题组成员还是外界研究人员,大家都对这种大数据计算产生了极大的兴趣。化学家Jens N rskov曾使用该方法探究能够使水分解成氢气和氧气的催化剂。后来,他的研究扩大成为了SUNCAT Center的原型。

Marzari同样对该技术很感兴趣。他曾是Quantum Espresso计划的一员,该计划成立于2009致力于量子力学计算。

材料基因组

但是,直到2011年6月计算材料学仍然没有成为主流,此时白宫刚宣布材料基因组计划(MGI)。James Warren是美国国家标准与技术局的一名材料科学家,也是MGI的执行秘书,他说“当白宫的人逐渐熟悉Ceder的工作,他们就变得兴奋起来”。人们已经普遍认识到电脑模拟能够对创新和制造业产生积极作用”。

从2011年开始,这项计划已经投资了超过2.5亿美元用于软件工具、收集和报道实验数据的标准化技术、主要大学建立计算材料学中心、对特定应用建立大学与企业部门之间的合作。但是,目前并不清楚如此巨大的投资对这门学科推动作用有多大。Ceder说,“MGI带来的好处很多,而且还产生了一点品牌效应,一些团队把他们的研究称作基因X或基因XXX,虽然他们的工作几乎与此并不相关”

然而,MGI真真切切做到了一件事,那就是在帮助Ceder 和其他人实现了他们建立材料性能在线数据库的愿景。在2011年年末,Ceder 和 Persson将材料基因组计划作为Materials Project重新启动,此项目曾经被白宫要求放弃“基因”标签以防止与国家的努力混淆。来年,Curtarolo发布了用自己开发的软件而做的数据库,叫做Curtarolo。2013年,西北大学的材料研究员Chris Wolverton推出了开放量子材料数据库(OQMD),他表示自己的idea来自于Materials Project和AFLOWlib项目,但软件和数据是自己开发的。

这三个数据库都分享了5万余种已知材料的核心数据,这些材料来自于人们广泛使用的实验资料库,即无机晶体结构数据库。这些材料被实验室制作出来过至少一次或者有文献对其进行报道,但是其中的电性能或磁性能可能从来没有被仔细研究;这些材料可能是我们获得新材料起点。

三个数据库的不同之处在于其中所包含的的假设性材料。Materials Project包含的相对较少,其中包含15000种Ceder和Persson根据锂电池研究而得到的计算结构。Persson说,如果我们自信计算结果正确并且有机会将其做出来,才会将其假如数据库。另外,还有13万左右的结构由明尼苏达大学的纳米多孔材料基因中心预测,这个数据库主要包含沸石和MOF。

AFLOWlib 是最大的数据库,其特点是拥有超过一百万种不同的材料和大约1亿的计算得到的性能。这是因为它包含成千上万的假设材料,其中许多在实际中仅能存极短的时间。Curtarolo 说,当你想预测某种材料可以如何制备时,这些数据就很有价值。例如,他使用AFLOWlib 的数据库数据来研究为什么一些合金可以形成金属玻璃——一种具有无序显微结构的独特金属。事实证明,一种材料能否形成金属玻璃取决于不稳定晶体结构的数量和能量,这些不稳定结构在合金冷却时与基态原子相竞争。

Wolverton的 OQMD 数据库包含约40万种假设性材料,这些材料由自然界中常见的晶体结构以及用元素周期表各部分的元素修饰计算而来。其中钙钛矿的相关数据非常多,其晶体结构通常表现出诸如超导等吸引人的特性,而且还应用于太阳能电池中。与名字所暗示的一样,这个项目是三个中是最开放的:用户可以下载整个数据库而不仅仅是单个搜索结果。

所有这些数据库还在发展,它们的创建者认为其还不够完美,所以花费大量时间来添加更多的化合物并且完善计算结果。这些数据越来越善于预测某种晶体是否稳定,但是在预测光吸收性能以及导电性等方面并不是很好。Marzari 指出,即使是在计算材料学最有成功经验的电池材料领域,标准计算仍然有平均半伏的误差,导致性能方面存在许多差异。“事实是,理论本身存在一些错误:我们可能永远无法改正”,Curtarolo 说。

每个团队都正在开发自己的技术来调整计算并弥补这些系统误差。但是,与此同时他们已经在使用这些数据来进行科学研究,来自其他团队的用户也在做同样的事。Marerials Project 确定了几个极有前景的正极材料,其性能可能超过已经存在的锂电池材料。同时确定了几种金属氧化物,可以提高太阳能电池阳的光吸收效率和能量转化效率。今年早些时候,来自Dublin 的Trinity 学院的研究人员使用 AFLOWlib 数据库预测20种Heusler合金,其可以用于传感器或电脑记忆体的磁铁,他们还成功地合成了两种该类合金,结果表明其磁特性非常接近预测结果。

进击的欧洲

材料基因组同样在欧盟得以开展,尽管可能用的是其他名字。例如,瑞士建设了MARVEL,一个计算材料科学研究网络,以洛桑联邦理工学院为首,Marzari是主管。他通过使用全新的计算平台,创建了一个名为“材料云”的数据库,以用于检索二维材料,例如石墨烯。这些材料可以应用于纳米层级的电子产品到生物医药设备。为了找到优秀的候选材料。Marzari提交了超过15万种已知材料到他所谓的“计算剥离”:计算出将原晶体表面剥离一个单原子层需要多少能量。今年下半年他的数据库就将向公众开放,预计将可以让1500种可能的二维结构测试。

而计算化学家Berend Smit兴建了另一个中心,以发展预测数以万计的纳米沸石分子筛和金属有机框架的算法,以及其他算法。他的工作同样得到了材料基因组可以带来坏消息。很多研究人员期望使用纳米沸石材料以打造一种再更少的空间可以储存更多的甲醇的汽车油箱。但搜寻了超过650000种计算材料之后,Smit的团队得到的结果显示,现有的材料已经是较优解。新材料的改进效果会非常小,因此目前美国机构设置的重大技术改进甲烷存储目标可能是不切实际的。

正是这样那样的结果显示,材料基因组要达到预期效果还有很多难题。其中一个问题是计算结果只能对实验室合成新材料提供一些线索,更别提实现产业化了。Ceder介绍,“要做出计算所得的材料,我们有时候要花2周,有时候是半年甚至更长。而且我们也搞不清到底是没有用正确的方法合成,还是压根就做不到。”

Ceder和Curtarolo都在尝试用机器学习算法从现有的制造工艺中提取规律以指导材料合成。

另一个限制是,目前材料基因组一直被应用于工程师所谓的功能材料--即可以实现某种功能的化合物。但该技术不被用于研究结构材料,因为材料的弹性和硬度这样的机械性能依赖于加工工艺。

即使是在功能材料领域,目前的计算机程序也只能很好地对材料结构中很小的一部分——完美晶体结构进行分析。Galli介绍,“未来最有趣的材料可能会以创造性的在微观层面进行组装。它们可能是纳米颗粒和晶体结构中特地布入缺陷的组合物,或者是缠结了不同化合物和相的异质材料。为了预测这种材料,需要一次性计算许多性能,以及计算在特定温度和时间下系统如何变化。如此计算成本将非常高昂。

在短期内,更多的实验数据交换可以对计算进行现实检查,并有助于完善。为此,Ceder正在与MIT从事软件研究的团队进行合作,使用一种软件可以读取实验类材料科学的论文,并自动以标准格式提取晶体结构的信息。他们计划开始在几个月内将这些数据传送到材料项目上。

从长远来看,摩尔定律或许可以帮上忙:随着计算能力的不断提高,一些超出目前计算的技术可能很快变得可用。

Marzari说“我们已经从计算材料科学的手工时代发展到了工业时代,我们现在可以创建模拟装配链进行工作,还可以用全新的方法探究问题。虽然现在市场上还没有通过计算预测得到的材料,但十年之后或许会很多。”

Nature原文地址:Can artificial intelligence create the next wonder material?

材料牛编辑整理。

分享到