麻省理工 Nat. Chem.:机器学习又一佳作!深度学习设计靶向核的非生物微蛋白


【背景介绍】

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。在广阔的化学搜索空间里,仅单凭经验方法设计功能性大分子还面临巨大挑战。机器学习可以通过弥合实验训练数据点之间的差距,在高维搜索空间中实现插值。最近的研究表明,使用各种输入表征和定量活性预测设计新的抗菌肽和抗体CDR3环是有前景的。对于细胞穿透肽(CPPs),涉及二元分类器的类似策略已用于优化活性。通过使用大型标准化数据集和高级输入表示法结合深度学习来进一步解决这一挑战,同时设计新的功能性微蛋白并定量预测它们的活性。成功设计功能性聚合物对医学具有重大意义。例如,CPPs是短(5-20个残基)序列,可以增强生物分子(如寡核苷酸和蛋白质)的细胞内传递,否则无法有效穿过细胞膜。但是,实验设计的变化导致了不一致的数据集,有时甚至是相互矛盾的数据集,从而妨碍了序列-活动关系的发展,并使得利用机器学习模型从头设计类似物变得复杂。虽然通过全新设计的非生物微蛋白克服了这些挑战,该蛋白将活性物质反义磷酸二酰胺吗啉寡聚物(PMO)输送到细胞核,但是主要的挑战仍然是细胞通透性差。

【成果简介】

近日,美国麻省理工学院Bradley L. Pentelute和Rafael Gómez-Bombarelli(共同通讯作者)等人报道了机器学习如何使非生物核靶向微蛋白的从头设计能够将反义寡聚体输送到细胞核。作者将高通量实验与定向进化启发的深度学习方法相结合,其中自然和非自然残基的分子结构表示为拓扑指纹。该模型能够预测训练数据集之外的活动,同时破译和可视化序列活动预测。预测的小蛋白,称为Mach,平均质量达到10 kDa,比细胞中任何已知的变体都更有效,并且还可以将蛋白质输送到细胞质中。Mach微蛋白无毒,能在小鼠体内有效地传递反义物质。这些结果表明,深度学习可以破译设计原理,产生高度活跃的生物分子,而这些分子不太可能被经验方法发现。研究成果以题为“Deep learning to design nuclear-targeting abiotic miniproteins”发布在国际著名期刊Nature Chemistry上。

【图文解读】

图一、基于定向进化的机器学习模型预测用于大分子传递的高活性非生物微蛋白
(a)使用非生物肽模块的线性组合合成了一个600-membered的PMO-小蛋白偶联物模块化文库;

(b)使用定量荧光读数用于核递送的标准化体外定量活性测定测试;

(c)模块化文库的Members展示了广谱的活性;

(d)序列被编码成指纹矩阵,用实验活动标记,并用于训练机器学习模型;

(e)比较文中设计的肽的归一化活性(Mach)与模块化文库中的肽和使用相同测定测试的已知CPPs的活性。

图二、基于机器学习的生成器-预测器-优化器循环预测核靶向非生物微蛋白
(a)每个氨基酸残基为一个独特的指纹,构建为位向量,编码残基中191个可能存在或不存在的亚结构;

(b)序列表示为堆叠在行矩阵中的残留指纹;

(c)比较保持测试集和新马赫序列的预测和实验活动值,展示机器学习模型的性能;

(d-e)在预测的马赫肽中,有12个合成并在相同的活性测定中进行测试,并与相对电荷和Arg含量相关的模块库进行比较。

图三、预测器CNN的解释揭示了激活的子结构
(a)Mach3的输入序列表示计算CNN正激活梯度图;

(b)Ahx在Mach3中的激活梯度图表明该残基的激活亚结构;

(c)长度为35、40、45和50的预测序列的梯度图显示为相对于残基位置;

(d)显示了每种类型的残基相对于长度为35、40、45和50的预测序列的百分比组成;

(e)长度为35、40、45和50的预测序列的梯度图相对于子结构指纹显示;

(f)在所有序列长度上始终被激活的几个残基和亚结构,其中包括Lys的胺侧链、Ser的极性侧链和Asp的羧酸侧链。

图四、Mach小蛋白在体内外都具有高度活性,并将其他生物大分子传递到细胞质中
(a-c)显示的是对应于EGFP测定中的活性和PMO-Mach3、4和7的LDH测定中的毒性的剂量-反应曲线;

(d)对于EGFP分析,n=3个不同的样本,而LDH分析的平均值,n=2个不同的样本;

(e)比较野生型和无活性突变体DTA和DTA(E148S)单独或与Mach3或7偶联的毒性;

(f)共聚焦显微照片显示了HeLa细胞中EGFP、Mach3-EGFP或Mach7-EGFP在10 μM孵育3 h后产生的绿色荧光;

(g-i)用PMO-Mach治疗后,EGFP转基因小鼠中的EGFP合成:股四头肌、膈肌和心脏中的剂量反应EGFP蛋白水平。

【小结】

综上所述,该策略说明了如何将深度学习应用于功能性非生物微蛋白的从头设计。Mach微蛋白是迄今为止开发的最有效的PMO传递结构,并且在动物中有效。本文中的机器学习框架可能被重新调整用途,以发现具有其他所需活动的序列优化肽,只需要一个标准化的高质量输入数据集。作者设想,这一战略将使未来快速设计新功能肽,对化学、生物和材料科学产生影响。

文献链接:Deep learning to design nuclear-targeting abiotic miniproteins. Nature Chemistry, 2021, DOI: 10.1038/s41557-021-00766-3.

本文由CQR编译。

欢迎大家到材料人宣传科技成果并对文献进行深入解读,投稿邮箱:tougao@cailiaoren.com.

投稿以及内容合作可加编辑微信:cailiaokefu.

分享到