失败的科研数据无用?人工智能并不觉得!


0EABDF32-8133-4A8A-A611936E813E202D

相比于失败,人们更倾向于强调成功。所谓失败是成功之母,那也是人们在成功之后,才向人提起那一次次失败,佐证成功的来之不易。

在材料研究领域,也不喜欢谈及失败,尽管大多数实验都是失败的。在大大小小的期刊上、专利中以及各式各样的行业会议,人们发表和讨论的是成功的实验数据和研究结果。因此,那些失败的实验数据,要么被删除,要么被遗忘在实验记录本上,最终被丢弃,成为一种垃圾。但宾夕法尼亚的Haverford(哈弗福德)学院研究团队利用机器学习,或许可以让失败的科研数据变废为宝,从而让新材料研究成功率更高。

实验化学家亚历山大Norquist介绍,“我们要做的是尽可能地从大量失败的、没有被报道的化学反应中获取信息。”为实现这一目标,研究团队收集这些失败或“没有前景的”反应,创建了机器学习模型。相对人类而言,这个模型能更精确地预测成功的新化学反应。

首先,他们构建了一个数据库。这个数据库包括Norquist的实验室过去十年所做的近4000个化学反应(其中许多已经失败,并没有被数字化保存下来)。这些信息主要是一种由钒、硒、氧和有机成份组成的名为模板化钒亚硒酸的新材料的合成。然后,他们创建了一个机器学习算法,这种算法可以从那些数据中推导,确定实验的成败因素。如Norquist那样的科学家多年来已经形成了的关于决定晶体合成成败的条件-温度、数量和反应物比例、酸碱性以及许多其他因素的直觉。“但我们的直觉永远是不完整的,”Norquist说,“反应之间的差别不会显而易见。”

既而,他们开始尝试机器学习:设置给每一个反应300种状态,然后使用一个可以分析高维度数据的辅助向量机,预测哪些是反应物新组合的必要条件,然后再在实验室中进行测试。与研究人员78%的预测成功率相比,该算法预测形成晶体的条件的成功率为89%。

因为决定算法的原因并不总是很清楚,在考虑了大量的数据之后,研究人员又回到模型本身,生成类似于流程图的结构。这种结构列出了一系列选择之后的结果。这种更容易用于解释说明的方法,可以让科学家获得新的见解,进而提出新的假设。

例如,基于自己的实验室经验,他们不会预料到极化率在某种程度上对于实验是很重要的。他们最终提出反应物的三个不同假设。一类反应包含需要在一个特定的氧化钒的存在状态的特定有机物。当极化率较低时,研究人员意识到他们不得不把注意力转向其他反应物的行为上,即钠。而对于特别大的有机成分,电荷密度发挥了至关重要的作用。计算机科学家、另一位主要的研究工作者Sorelle fiedl说,“真正的新奇在于这是一种点对点的传递途径。综合考虑以往被视为失败、不重要的反应及的信息,并将它们与机器学习相连,然后测试机器学习的结果以生成新假设”。

这个发现正当在材料的研究变得越来越重要的时机。为了加快新材料的发现与投放市场,白宫在2011年成立了材料基因组计划。

通过优化已知材料和新材料的合成过程,Haverford团队的机器学习方法可帮助科学家们让这个搜索更加有针对性。圣芭芭拉的加州大学的材料研究员Ram瑟哈德里说,“材料是我们能想到的每一个科技进步的核心,我现在正在用的手机里的锂电池就有先进材料,这种材料就由这篇文章中所说的化学合成精确制得。”

手机并不是这样的材料唯一的潜在应用。这项研究还可用于指导很多材料的制备过程,如更好的洗发水和防晒乳液,新的药物和更高效的太阳能电池板。

此外,研究人员希望他们的机器学习方法可应用在其他领域,不仅是化学。这个团队已经在网上公布了其反应数据库,以便其他科学家可以贡献自己的数据。Friedler说:“我们非常希望与其他实验室合作。”这些数据的获得,尤其是失败的实验数据,将促使他们做出新的发现并改进算法。另外,哈佛大学化学与化学生物学教授Alan Aspuru-Guzik说,“大数据时代下,我们需要从失败的实验中汲取成功的元素。”

“通常促进科学进步的不是数据,而是需求。这项工作表明,有时候你必须跳出需求的思维,用数据来促进发展”瑟哈德里补充道,“令人意想不到的是,数据驱动发展的方法能指导对实验偶然性的更好的理解。所以,这个团队所使用的办法,我们将在以后不可避免地使用到。”

论文下载地址:Machine-learning-assisted materials discovery using failed experiments

材料人组建了材料人材料计算交流QQ群,欢迎从事材料计算的材料人们加入!QQ群号:562663183。

实习生周欢、材料牛编辑整理。

分享到