科技自立自强之专家说|许锦波:望向生物产业下一站-新华网
新华网 > > 正文
2024 06/13 08:52:45
来源:新华网

科技自立自强之专家说|许锦波:望向生物产业下一站

字体:

新华网北京6月13日电 题:科技自立自强之专家说|许锦波:望向生物产业下一站

记者 陈听雨

蓝鲸体型庞大,蚍蜉朝生暮死。地球上的生物复杂多样,差异巨大,但从本质上说,都以碳元素为有机物质基础。碳基构成了基本的蛋白质、核酸、嘌呤、嘧啶,其中,蛋白质是一切生命活动的物质基础。

“蛋白质的结构决定功能。DNA储存着我们的遗传信息,然而在细胞中真正执行功能的是蛋白质。”计算生物学家、分子之心创始人兼首席科学家许锦波教授在接受新华网专访时表示,“准确测定蛋白质三维结构对理解蛋白质的功能非常重要。当前,AI技术已经颠覆了蛋白质结构预测,但这只是一个开始,下一个爆发点将是AI蛋白质设计。AI蛋白质优化与设计上的突破,有望引发未来生物产业的颠覆性突破、乃至生物经济的重构。”   

图为计算生物学家、分子之心创始人兼首席科学家许锦波教授。 新华网 朱家齐 摄

蛋白质折叠:现代分子生物学“皇冠上的明珠”

在人体中,蛋白质就像一台精心组装的机器,它的零件是人体内的20余种氨基酸。氨基酸分子遵照我们生命的密码——基因序列中蕴含的遗传信息指令,像珠子一样有序缀连起来,形成多肽链,构成蛋白质的一级结构。氨基酸分子连接成多肽链后,蛋白质分子的建造还未结束,还需要进一步折叠成三维结构才能发挥功能。可是基因序列只决定氨基酸序列的合成,并不包含更多信息指导它如何折叠成独特的三维结构。

氨基酸序列折叠方式的秘密蕴含在自身之中,它们自设计自己如何折叠。一维多肽链中的氨基酸分子好似懂得互相沟通一样,它们有些相互排斥,有些彼此吸引,形成螺旋、折叠成褶皱,构成蛋白质的二级结构。接着进一步折叠成独特的空间结构,像一根毛线绕成线团那样,构成蛋白质的三级结构。

整个蛋白质折叠的过程看似随机,却又仿佛遵循着一张设计蓝图,一旦组成蛋白质的氨基酸序列确定下来,它的折叠方式也就完全确定了。

“蛋白质在生物体中能发挥多种多样的功能,很大程度上取决于它们的三维结构,‘看清’它们的结构对理解其功能至关重要。但想要破解这种结构需要花很长的时间,有些甚至难以完成。”许锦波说。

在过去几十年中,科学家通过晶体衍射、核磁共振、冷冻电镜等实验技术来测定蛋白质中所有原子的三维坐标。但这些方式耗时长、花费高、成功率低,导致蛋白质结构预测始终是生物科学领域悬而未决的难题之一,因此被称作现代分子生物学“皇冠上的明珠”。

目前地球上已知的蛋白质约有两亿种,每一种蛋白质都有独特的空间结构。自然界经过漫长的生命进化过程,蛋白质分子在瞬息间就能自发完成整个折叠过程。但科学家若想通过计算氨基酸分子间的相互作用来预测其折叠方式,则要穷尽所有可能的蛋白质构型,需要的时间将超过整个宇宙的年龄。

AI颠覆蛋白质结构预测:这只是一个开始

“现在通过使用AI技术,可以在很短的时间内精确算出蛋白质的三维构象。”许锦波说。

在生物计算领域深耕20余年,许锦波一直致力于用计算机算法、尤其是人工智能算法及大数据技术解决蛋白质结构预测、优化、设计等问题,将AI蛋白质技术推向产业应用。

2016年,许锦波发明的RaptorX-Contact方法,全球首次证明AI可以大幅提升蛋白质结构预测精度,在蛋白质结构预测这一领域取得了实质性的进展。

在许锦波看来,AI特别适合用来解决生命科学中的问题。“经过几十年的发展,生命科学领域发明了很多非常好的实验技术,特别是一些高通量技术可以大规模、高效地产生海量的、多模态、多维度、复杂的实验数据,比如基因测序。而从数据中提取规律,找到模式,是AI的专长,AI刚好可以用来处理这些数据。”他说。

许锦波介绍,通过AI预测蛋白质结构,极大提升了人们对蛋白质的认知,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,进而让人们更好地理解生命的分子过程,这对生物学、医学和药学等领域具有重要影响。

他举例称,比如通过AI蛋白质结构预测,可以更快速地找到准确的蛋白质靶点,帮助药物研发人员设计更加有效的药物分子。

“计算与生物学的结合,最成功的案例就是AI蛋白质结构预测,这是目前为止,AI对生物学、乃至对整个科学界最大的贡献。但这只是刚刚开始,还远未到结束的时候。”许锦波说。

许锦波认为,AI蛋白质结构预测不可忽视的价值,更在于对蛋白质设计的推动和验证。运用AI,我们可以根据特定的功能需求设计自然界不存在的蛋白质或改造已有的蛋白质。“下一个爆发点将是AI蛋白质设计,这是实现对蛋白质有效利用的必由之路,将为药物研发、新材料、环境保护、绿色农业、食品等领域带来革命性的变化,有可能引发生物产业的颠覆性突破,乃至生物经济的重构。”

AI蛋白质设计:更具价值的颠覆性技术

许锦波从2019年就开始使用预训练机制研发蛋白质设计算法,并取得了很好的成果。2021年9月,许锦波回国创业。2022年1月,他创立了分子之心(MoleculeMind)。

随着ChatGPT引爆生成式AI与大语言模型的浪潮,大模型在生物医药、生物制造等垂直产业领域的应用,逐步引发关注。

在许锦波看来,AI可以很好地处理自然语言,类似的方法也可以用来处理蛋白质的氨基酸序列,构成蛋白质的系列大模型。

“一个蛋白质是非常大的分子,但蛋白质也是由几十个、几百个甚至上千个氨基酸通过化学键串联在一起的。我们可以把每个氨基酸理解为一个词,把一个蛋白质的分子式理解成一个句子,这个句子里面可能只有20个词,通过不同的排列顺序重复使用这些词构成,这样蛋白质的氨基酸序列就和自然语言有了一定的相似度。”许锦波说。

但是,蛋白质又远比自然语言要复杂。一方面我们可以用自然语言去处理蛋白质序列;另外一方面,又要考虑蛋白质本身结构特别复杂的特殊性,他说。

分子之心在AI蛋白质预测、优化与设计等关键技术领域,拥有十余项全球领先的AI算法,并基于此研发了AI蛋白质优化和设计平台MoleculeOS,填补了世界范围内没有功能完整AI蛋白质设计与优化平台的空白。

许锦波介绍,目前,MoleculeOS已应用于产业中,面向药物设计、生物制造等领域的需求,进行多肽、抗体、酶和小蛋白的研究和设计,“用生成而非发现的方法设计出具有特定功能的蛋白质产品,变革药物设计和合成生物学产业模式,开启可编程药物、可编程生物制品定向进化新时代。”

与此同时,分子之心还在研发集成序列、结构、功能和进化的产业级AI蛋白质生成大模型NewOrigin(达尔文)。NewOrigin大模型拥有百亿级参数,学习了海量高度专业、多样的蛋白质大数据,综合运用最新的AI技术,优化算法和物理学方法,可根据结构和功能需求直接生成具有特定功能的蛋白质,满足ChatGPT等通用大模型难以企及的蛋白质生成需求。

“相较于传统的生物实验方法和计算方法,大模型可以大幅度降低湿实验测试的费用和时间。通过使用AI技术,可以创造出一些自然界不存在的、或者很难找到的蛋白质,这些蛋白质真正具有我们所需要的功能,可以对药物设计、生物育种、环境保护、高性能材料等领域带来巨大影响。”许锦波说。

比如,在创新药研发领域,AI蛋白设计正在推动大分子创新药研发范式变革,将传统的筛选“试错”模式变成可预测、可编程,从而提升研发效率和成功率,降低成本。AI不仅可以发现全新靶点,还可以设计合成全新的药物分子,从而设计更好的药物。

在合成生物学领域,AI蛋白质优化与设计技术赋能合成生物学,可设计更高效的催化酶,生成创新蛋白质材料、易降解且能循环使用的环保材料、对人类无毒无残留的绿色农药、更营养安全美味的蛋白质食物、更绿色环保高效的化工产品等。

“现在,我把科研事业的主要目标放在产业应用上,希望能运用前沿、创新的AI蛋白质技术,去解决一些以前解决不了的产业问题,从而为生物产业乃至生物经济带来更多变革。”许锦波说。

在许锦波看来,做科学研究,有两个标准。“第一个是从学术的角度来说,做研究要有原始创新,要尽可能地做一些原创的、从0到1的工作。另外就是要从产业的角度去考虑,要学以致用,研发出来的东西是否能解决真实的问题和重要的问题?这是我现在利用AI技术去改变生物产业的主要出发点。”他说。

【纠错】 【责任编辑:朱家齐】