MIT李巨:由主动学习和AI驱动的智能自主实验


近日,MIT材料科学与工程系李巨、Tonio Buonassisi等人在Nature Reviews Materials的Comment栏目发表题为“Autonomous experiments using active learning and AI”的文章,介绍了由主动学习和AI驱动的智能自主实验。

主动学习和自动化并不能让人类轻松地摆脱实验室的工作。在它们对新材料研究产生实质性的影响之前,我们必须非常仔细地部署人工智能系统,确保它们能够稳定地运行,并且能够应对各种偏差,包括随机噪声(stochastic errors)和因人类对所研究的问题认知不足而导致的认知性偏差(epistemic errors)。如今,随着自动化和AI逐渐普及,我们需要认真考虑自主实验室的可重复性、可重配置性和实验互通性这些关键因素。

探索新材料是一个劳动密集型过程。爱迪生为了发明白炽灯泡,测试了数千种灯丝。现如今,便宜的自动化设备让结合机器人和主动学习算法的新研究方法成为可能。虽然在预算和空间有限的情况下,构建完全自动化的实验平台是非常具有挑战性的,但是在半自动化的工作流上也可以取得不错的进展。例如,在仪器之间完全可以保留传统的手动转移样品,并不一定要使用机械臂或者是传送带之类的自动化。只要实验结果高度可重复,即使使用一些基本的机器学习方法,比如高斯过程回归和贝叶斯优化,就已经能很好地解决许多材料优化问题。

就像把孩子养大需要几十年时间,并且在这过程中需要教他们各种各样的东西一样,人们不应该期望在知识基础比较有限的情况下,由主动学习(active learning)驱动的实验一开始就非常有效。这个学习过程在开始时往往是非常脆弱的。教一个小孩子走路需要很多手把手的引导,同样地,驱动实验的人工智能在一开始也需要很多指导,即使其调用的自动化平台看似十分“稳定高效”。

认知性偏差的挑战

能够获得长期可复现的数据集是自动化平台有能力开展主动学习的衡量标准。当一个实验重复两次产生不同的结果时,差异主要来自两个方面:偶然性偏差和认知性偏差。偶然性偏差源于随机性,可以通过提升自动化占比和在模型中引入高斯过程噪声核来有效缓解,因此相对容易处理。相比之下,认知性偏差则可能会影响自主化实验的成功,尤其是在主动学习算法还未经过优化调整的情况下。认知性误差,从本质上讲,就是由于我们科研工作者的“知识偏见”——我们认为一些变量在多次试验中是恒定的,但实际上它们在“悄悄”地变化。

以我们实验室的自动化滴涂碳基底样品过程为例,有段时间我们发现即便是重复同样的实验,样品的性能差异也很大。直到有一天,我们注意到碳基底可能是各向异性的,也就是说我们切割它的方式(从市场上买来的片状切成条状)是一个重要的变量,直接决定了滴涂后样品扩散的方向和最终面积。而在此之前,我们一直很自信地默认这个基底是各向同性的。诸如此类的知识偏见,很可能将直接导致整个机器学习项目失败。

为什么可复现性对主动学习特别关键?手动实验不也面临这个问题吗?答案是肯定的,但人类的经验和灵活性大大缓解了这个问题。想象一个学生发现了一种合成方法,重复了10次,其中2次得到了非常令人兴奋的结果。学生会怎么做?误差区间太大,无法发表,所以学生和导师会讨论、调整设置,最终找出统计异常背后的原因(例如,中间反应产品的外来水分含量)。

统计上的异常源于我们没能找齐决定了实验结果的变量全集。如果我们选择忽略而不是去深入调查和试图理解我们漏了哪个隐藏变量,其结果就是,我们发现自己的实验难以复现。《自然》杂志的一项调查显示,文献中不可复现性的主要原因是选择性报告,其本质也是类似的——文献只披露了实验变量全集的一个子集(也许作者自身也未意识到)。如果我们还没搞清楚误差来源就轻率地启动一个主动学习项目,这可能会浪费大量时间和金钱。算法会错误地将特殊的噪声视为信号,从而给出糟糕的建议,正所谓“garbage in, garbage out”。

另一方面,如果我们仔细地去排除认知性偏差,找出隐藏变量,可能会有意想不到的科学发现,就像青霉素是由于意外真菌污染而未能培养细菌培养物所发现的。人类非常擅长扭转“实验失败”,因为我们有着出色的因果推理能力(用福尔摩斯的话说,“一旦排除了所有可能性,无论剩下的是多么看似不现实的推论,必定就是事实”)。可惜的是,朴素的主动学习方法并做不到这些,因为它们被设定了过于简化的世界观,而且没有太多先验的物理知识。

与传统机器学习技术不同,大型语言模型如ChatGPT能生成科学上合理的猜想。未来,我们有望利用更先进和全面的自主实验室来验证这些由大模型生成的假说。比如,我们可以在受控的气氛反应室内自动重复合成程序,以探究实验结果对不同气体分压的依赖性。随着自动实验引入计算机视觉(在某些方面已超过人类视觉),以及借助于庞大的先验知识库,AI系统将能更精确地跟踪实验室条件(例如湿度、背景辐射、前体材料的纹理和不均匀性)。因此,随着AI系统逐渐整合多模态传感器,弄清认知误差的可能原因并针对性地调整工作流程只是时间问题。大型语言模型结合具有通用感觉运动功能的强化学习,以及下文所述的“新控制论”,很可能是实验室自动化革命的下一个步骤。

AI驱动的自主实验室网络

随着AI系统变得更加复杂和强大,预算和空间的限制,模块化的云实验室设施将变得有必要(图1/图2)。这类新型实验室不仅需要能重新编译和链接各种实验设备,还需要确保多个自动实验室之间的互通性。一个包括实验和理论两个方面的庞大的AI网络将被建立,以实现实验室级的劳动分工、规模经济和互相制衡。例如,当某个AI实验室制备出了具有突破性性能的样品后,AI网络会负责将(i)该制备方案发送至负责理论研究的AI实验室进行分析,(ii)在该实验室本地复制多份物理样品并传送至多个专门负责测试的AI实验室,(iii)制备方案本身分发至负责制备同类型材料的AI实验室以进行对抗性的复现测试。

今天的材料合成、表征和性能测试的设备主要是为人类用户设计的。未来,自主实验室每台设备都需要具有两个接口,一个主接口服务于物联网上的AI系统,另一个用于人类操作。每个设备模块将更像是软件库中的子程序,其物理样品输入/输出规范将被明确且严格地定义。设备链将具备快速和自动的重配置能力,以满足不同科研项目的需求。值得注意的是,重新配置并不意味着需要将设备物理移动以组成一条流水线,因为轮式机器人和小型无人机将负责模块之间的样品传送。(图3)

虽然自主材料研究实验室的概念早在1950年代就已经出现,但至今成功的案例仍然较少。目前在学术界,实验室大多还是以人为核心,且每个实验室的建设预算仅限于几百万美元或更少。这通常意味着单个实验室只有自家“一招鲜”或“几招鲜”的手段,这使得它们在识别认知误差或迅速适应工作流变化方面表现不佳。当怀疑有些不寻常的情况发生时,人类研究员会向校园内从事不同领域的同事寻求帮助,请他们进行补充测量。这种灵活性在科研探索过程中是非常重要的,反观我们今天的以机器和AI为核心的自主实验室案例,由于规模太小,还无法做到类似的灵活性。

为了解决这个问题,不同的自主实验室需要实现更好的协同工作。例如,让AI有能力将一个物理样品及其对应的元数据从一个实验室传送到另一个实验室。这样的任务需要我们建立标准化的数据和样品传输协议,比如规定用于传输液体、粉末、凝胶、颗粒和单晶材料的胶囊,它们需要与易于称重、尺寸测量以及光学和化学表征设备相兼容,还需要能有效防止外界污染。此外,我们可能还需要重新考量设计建筑和基础设施,例如无人或者是机器人和人类研究人员共同工作的全新的建筑架构。

AI时代已经来临。为了在实验研究和材料发现中充分释放AI的潜力,为硅基智慧提供“手”(材料合成加工/样品转移/设备模块重组)和“眼睛”(材料表征/多模态感测)至关重要。建立一个稳健的AI对于现实世界的感知反馈系统绝非易事。但是,随着AI实验室的正确配置和相互链接(核心是标准化接口和模块化设备),以及全球广泛共享的专业知识,强大的AI自主实验室可能会彻底改变材料研究。

未来云端实验室可以被建设在太阳能/风能充足的荒漠中,科研人员可以从全世界任意一个地方控制云端实验室。园区内的两大主体——数据流和物质流,将分别由互联的AI网络和机器人网络负责运载。(本图由MidJourney + Adobe Firefly生成)

云端实验室内部由一个个的模块组成。每一个模块就像一个代码中的函数,有着清楚的输入输出规范,例如输入的材料样品必须符合某个标准化的尺寸/形态。不同模块之间由轮式机器人或小型无人机进行样品传送。(本图由MidJourney + Adobe Firefly生成)

原文详情:https://www.nature.com/articles/s41578-023-00588-4

分享到