2017年诺贝尔化学奖得主理查德·亨德森手持一个蛋白质模型
中国结构生物学家饶子和院士的讲话被认为代表了结构生物学界的心声:“我们没必要抗拒人工智能的结构预测算法,而是要去拥抱这种新技术,因为它只会推动这个领域以更快的速度发展。”
叶盛
字母表公司旗下的人工智能公司深层思维(DeepMind)近期在《自然》杂志上先后发表了两篇关于其开发的用于蛋白质结构预测的人工智能系统AlphaFold 2的研究论文,第一篇描述了AlphaFold 2的基本算法原理,第二篇宣布将AlphaFold 2开放给全世界研究者使用,并且公开了一个由AlphaFold 2已经预测得到的蛋白质结构所组成的数据库,该数据库涵盖了人类基因组直接对应的蛋白质中的98.5%。
就在深层思维发表上述第一篇论文的同一天,美国华盛顿大学教授戴维·贝克与国际上多家研究机构合作的团队也在《科学》杂志上发表论文,公布了其开发的基于深度学习的蛋白质结构预测程序RoseTTAFold,并且将全部代码开源。
正如18世纪末至19世纪初第一次工业革命期间,一些工人担心由蒸汽机驱动的大机器会抢夺他们赖以为生的工作岗位一样,人工智能(AI)在蛋白质结构预测领域的崛起也让科学圈惊呼:“结构生物学家都要失业了!”
事实果真如此吗?
蛋白质与结构生物学
“蛋白质”或许是科学名词中最糟糕的翻译之一。它的英文“protein”源自希腊语,有“首要”之义,说明蛋白质是生命最为重要的一种组成物质。然而,“蛋白质”这几个汉字却只会更容易让人联想到它的营养价值。
人体细胞,乃至地球上任何一种生命的细胞,都是主要由蛋白质构成的。所以,人才需要摄入蛋白质,把它们消化成简单的20种基本氨基酸,再由人的细胞按照人自己的基因编码把这些基本氨基酸合成人自身的蛋白质。
从化学上讲,蛋白质就是由很多氨基酸串联在一起形成的一条长链——肽链。早在19世纪中叶蛋白质被发现之后不久,化学家们就在实验中证实了氨基酸与蛋白质之间的构成关系。但人们并不知道氨基酸是以怎样的顺序串联为肽链的,更不知道它们在三维空间中的立体结构是怎样的。因此,化学家们对于蛋白质总是感到“忧心忡忡”。
他们的担心是有理由的,因为仅仅知道一个分子由哪些原子构成,并不足以让人们认识这种分子,即便是五六个原子构成的分子,也存在化学组成相同、立体结构却完全不同的可能,被称为“立体异构体”。
显然,当构成分子的原子越多,可能形成的不同空间结构也就越多。蛋白质作为一种生物大分子,其所包含的原子数量成千上万。比如与血糖密切相关的胰岛素的化学式是C257H383N65O77S6,红细胞中用来携带氧的血红蛋白的化学式是C758H1204O403N195S2Fe,而这两者还只是相对较小的蛋白质。当如此之多的原子构成蛋白质时,它们在空间中的排布是怎样的?这个问题的答案很难通过想象或计算得到,只能通过实验来测定。研究这类问题的科学就是结构生物学。
由于蛋白质的尺度为纳米级,比人类肉眼的可见光波长还要小,也就超越了光学显微镜的观察极限。因此,研究蛋白质的结构,必须采用某种间接的方式。
结构生物学家最初采用X射线晶体学方法研究肌红蛋白和血红蛋白,并在20世纪50年代初步获得了两者的蛋白质结构,但是分辨率较低,仅为6埃左右。“埃”是结构生物学中普遍采用的长度单位,1埃为10-10米,即0.1纳米。分辨率数值越大,意味着“看”得越粗糙;数值越小,说明“看”得越精细。6埃的分辨率不足以准确判定每个原子的位置,但已能大体展现肽链是如何折叠为蛋白质的。
此后,越来越多的蛋白质结构得到解析,分辨率也逐渐提升到3埃以上,足以让科学家给出结构中每一个原子的准确空间坐标。研究结构生物学的方法也不再限于X射线晶体学方法,还出现了核磁共振方法、冷冻透射电子显微镜方法等。
作为一种分子,蛋白质的氨基酸序列决定了它的化学组成。但是结构生物学的研究表明,蛋白质的功能更与其结构息息相关。对于起到“搭建”作用的蛋白质来说,结构无疑是其功能的根本。对于起到催化作用的蛋白质来说,序列上相隔甚远的两三个氨基酸,很可能经过折叠之后在空间中凑到一起,并以一种精确的方式构成独特的化学微环境,从而促成催化反应的发生。再比如前文提到的血红蛋白,其结构研究持续至今,仍未结束。科学家现在已经能够精确测定血红蛋白中铁离子的位移,其零点几埃的位置变化就可能改变对氧分子的亲合力,从而实现结合氧再释放氧的动态功能。
可以说,几乎所有生物学问题都会牵涉到蛋白质,而几乎所有蛋白质的功能问题最终都要通过结构研究去回答。
结构之难,难于基因
结构生物学在2000年前后经历了一个快速发展阶段,新技术新方法不断涌现,但随后就遭遇了“滑铁卢”。2003年,“人类基因组计划”宣布基本完成了人类基因组草图的绘制。这一成果极大地鼓舞了生物学界,也包括结构生物学家们。他们提出了多个“结构基因组计划”,旨在解析人类或其他某种生物的全部蛋白质结构。但遗憾的是,这些计划在多年后均以失败告终。
蛋白质结构测定与基因组测序最大的区别在于,基因组序列是一维的、线性的,信息仅有4种可能的代码(A、C、T、G);而蛋白质结构是三维的,每个原子的坐标在XYZ三个方向上都可以是任意的数值。因此,基因组测序无论测的是什么物种的基因组,本质上都是在做同一件事,可以通过机器进行自动化、规模化的操作;而蛋白质结构测定则是各不相同的课题,科学家始终没能找到批量处理的方法。
以最经典的X射线晶体学方法为例,第一道门槛是目标蛋白质的获取,第二道门槛是获得目标蛋白质的晶体。与小分子不同,蛋白质通常都非常脆弱,环境条件稍不注意,其结构就可能被破坏,因此,其制备是件很需要技巧的工作。而蛋白质的结晶更是一个瓶颈,比小分子的结晶困难得多。
即便困难重重,结构生物学家们也已获得了超过10万种不同蛋白质的三维结构。这个数字似乎很多,但其实远远不够。“人类基因组计划”告诉我们,人类大约有不到2万个基因,但是考虑到信使RNA的不同剪辑,以及翻译后修饰等问题,人类细胞能够生产的蛋白质很可能多达100万种,保守估计也有10万到20万种。
而这还仅仅是人类而已。由于不同物种之间基因序列的差异性,其蛋白质也是不同的。也就是说,人类的血红蛋白与猴子或老鼠的血红蛋白肯定是不同的蛋白质。考虑到地球物种的多样性,特别是细菌等微生物的丰富性,世界上天然存在的蛋白质很可能达到数万亿种。
如此多的蛋白质,要想一一测定它们的结构,显然是个不可能完成的任务。那么,有没有可能把蛋白质的结构推算出来呢?
从测定到预测
蛋白质的氨基酸序列很容易从其编码基因的序列翻译得来,这在后基因组时代只需点几下鼠标就可以完成。而一旦氨基酸序列确定,蛋白质的空间结构通常也是确定的。只是科学家直到今天也不知道从序列到结构的科学法则。但既然是一一对应关系,就可以尝试通过计算进行预测,这就是蛋白质结构预测的由来。
最初的结构预测主要基于与已有结构的序列比对,以及能量最小化。这样做的理论基础是:序列相似的蛋白质,其结构也往往比较相似;而蛋白质折叠之后的结构应该是一个稳定的结构状态,所以其内部势能应该处于最小值。但是,基于这一思想的结构预测程序始终不能达到非常高的预测精度。
自从AlphaGo在围棋比赛中战胜人类最高水平选手之后,AI算法热度陡升,被应用于生产生活的诸多方面,当然也包括科研。近来获得极大进展的深度学习等算法,尤其适于处理所谓的“黑箱问题”,也就是不清楚“输入”与“输出”之间的确切原理、机制或公式的问题。围棋如此,蛋白质从序列到结构的折叠问题亦如此。
开发AlphaGo的深层思维公司很快就将研究重心转向了蛋白质结构预测领域,并取得了显著成果。2018年,深层思维公司开发的人工智能程序AlphaFold在国际蛋白质结构预测比赛(CASP)中取得了第一名。2020年,采用了新思路和新神经网络框架的AlphaFold 2在CASP中再次取得第一名,并展现出远远高于其他预测程序的准确度。AlphaFold 2的预测结构与通过X射线晶体学等方法获得的实测结构相当接近,各氨基酸α碳原子的位移均方根差仅为0.96埃。
今年7月,深层思维公司公开了由AlphaFold 2预测得到的蛋白质结构数据库,涵盖了人类基因组直接对应的蛋白质中的98.5%。这是一个令人惊叹的伟大成就,在硅基空间中已经基本实现了当初“结构基因组计划”的宏愿。
开启未来
在AlphaFold 2一鸣惊人之后,结构生物学家们最常被问到的问题就是:“你们是不是要失业了?”在2020年第十八次中国暨国际生物物理大会开幕式上,中国结构生物学家饶子和院士的讲话被认为代表了结构生物学界的心声:“我们没必要抗拒人工智能的结构预测算法,而是要去拥抱这种新技术,因为它只会推动这个领域以更快的速度发展。”
的确,有一部分结构生物学的研究工作可以被AlphaFold 2取代。比如在较低的分辨率上讨论蛋白质的整体结构,包括肽链的折叠走向、各个结构域的相对位置关系等等。因为偏差优于1埃的预测结构,显然要比3埃分辨率的实测结构更准确,而3埃通常被认为是可以判断原子准确位置的分辨率下限。
但是,还有一些研究工作对于蛋白质结构的准确度要求极高。比如前文谈到血红蛋白中铁离子的位移,是在零点几埃的尺度上进行讨论的。对于这类结构细节的精细分析,预测结构无法作为讨论的基础,因为其中一丝一毫的不确定性都可能导致完全不同的结论。
再比如在药物研发中,作为药物靶标的蛋白质的结构是相应药物设计与改造的基础。如果蛋白质结构数据有误,以之为基础开发的药物分子就不可能与真实的蛋白质相结合,也就无法发挥药效。因此,这类研究仍然只能依赖于通过实验方法测定得到的蛋白质真实结构。
这样来看,是不是应用AI技术的蛋白质结构预测程序并没有带来什么革命性的改变呢?事实并非如此。由于AlphaFold 2的出现,结构生物学家们获得了一件新的利器,能够以全新的方式开展结构生物学研究。比如,这些预测的结构可以作为晶体学计算中的初始模型,从而绕开麻烦的“相位问题”;也可以作为冷冻电镜方法中大型复合物各个亚基的初始模型,从而减小模型搭建的难度。再比如,对于始终不能结晶的蛋白质,可以先参考预测结构,对其进行一些截短或突变处理,使之变得更易于结晶。
此外,对于不熟悉结构生物学的生物学家来说,AlphaFold 2的出现也是一个福音。以前他们感兴趣的蛋白质如果没有已知结构,就只能去找结构生物学家合作,而获得的结果也未必对他们要研究的问题有帮助。现在,他们可以先用AlphaFold 2的预测结构进行初步研究,以判断自己是否还需要通过合作来获得其准确的精细结构。
从预测到设计
前述贝克团队开发的RoseTTAFold达到了与AlphaFold 2相接近的准确度,且运算速度要快得多。对于一个普通大小的蛋白质,一台用于游戏的主流配置电脑仅需10分钟左右就能完成结构预测。这很可能是因为,贝克团队在多年结构预测研究的积累下,对于蛋白质结构有着更为深刻的认知,从而以更加合理的方式建立了高效的神经网络。
其实,作为蛋白质结构预测领域的领军人物之一,贝克近年来的研究重点已经从蛋白质结构预测转向了人工蛋白质设计。新冠肺炎疫情暴发后,贝克团队就在《自然》杂志上发表论文,介绍了一种人工设计的蛋白质,能够与新冠病毒表面的刺突蛋白牢固地结合在一起,屏蔽病毒与受体的结合面。这种蛋白质能够替代中和抗体的作用,却比中和抗体蛋白小得多,也稳定得多。这项工作向科学家们展示了人工设计蛋白质在未来医药应用上的广阔前景,它们甚至有可能取代抗体药物,成为药物研发领域的明日皇冠。
然而蛋白质设计是一件比结构测定更加困难的事。由于科学家还不清楚从蛋白质序列到结构的科学法则,因此不能简单地直接设计出具备某种特定功能的蛋白质序列。目前贝克团队采用的方法是先在随机生成的蛋白质序列中进行筛选,通过结构预测程序获得这些序列对应的结构,再依据结构判断哪些序列有可能达到设计功能。最后再对筛选得到的有限蛋白质进行生物学上的合成与功能的实际验证。
但是上述过程中的筛选步骤需要极其巨大的计算量。以一个氨基酸序列长度为100的小型蛋白质为例,由于序列上的每一位都可以是20种基本氨基酸中的任何一种,所以这个蛋白质理论上有20100种不同的可能序列。这个数字大约是1.3×10130,比可观测宇宙中所有恒星的数量还要高100多个数量级。与之相比,自然界真实存在的蛋白质种类不过是沧海一粟。正因为如此,科学家才需要高效而准确的蛋白质结构预测程序,能够在可接受的时间内尝试尽可能多的序列组合,从而提高获得设计功能的可能性。
应对这些海量的非天然蛋白质序列的结构预测工作,恐怕才是AlphaFold 2和RoseTTAFold等人工智能蛋白质结构预测程序真正的用武之地。同时,也正是在这些AI算法的推动之下,结构生物学以及蛋白质设计的发展必然进入一条快车道,为药物研发带来一个更加光明的未来。
至于结构生物学家们,也将在AI的辅助下,逐步从蛋白质样品制备与结晶等的繁琐工作中解脱出来,把更多的精力投入到对蛋白质结构本身的分析与研究,以及人工蛋白质的设计工作中去。
(作者系北京航空航天大学大数据精准医疗高精尖创新中心特聘研究员,中国科普作家协会理事)
来源:2021年9月22日出版的《环球》杂志 第19期
《环球》杂志授权使用,其他媒体如需转载,请与本刊联系
本期更多文章敬请关注《环球》杂志微博、微信客户端:“环球杂志”
|