AI工程师们正跨界“攻城略地”,进入科研领域,进一步印证科研范式的变革浪潮已经开启。
今年,两位人工智能专家被授予诺贝尔物理学奖,两位人工智能领域的从业者被授予诺贝尔化学奖。作为AI领域的一名青年科学家,北京科学智能研究院院长、深势科技创始人兼首席科学家张林峰表示,今年的诺贝尔物理学奖和化学奖都颁发给了AI在科研领域应用的先驱,这对深势科技和AI for Science(AI4S)来说是极大的鼓舞和激励。
AI技术获垂青 折射科研范式新的变革
2016年,人工智能围棋程序AlphaGo无师自通,打败韩国传奇棋手李世石,一举开启了AI的第三次浪潮。
在张林峰看来,这一轮AI能够突破的方向具备三个要素:一是具有明确清晰的问题定义,可转化为AI的数据,即有明确清晰的目标函数和损失函数。二是存在巨大的搜索空间,需要用神经网络去刻画一个非常高维的搜索空间或者高维的函数空间。三是有巨量的数据或者非常准确的收集。凭借AlphaFold而获得诺贝尔化学奖的两位科学家,就是把握住了作为科学应用里面可能最适合这些方向的一个选题。
预测蛋白质复杂结构是一项难题,首当其冲就是如何从蛋白质序列到蛋白结构的建模问题。从实验积累来看,序列相对容易测,因为人类已经掌握20多亿的序列数据。而结构数据则相对困难,早期是通过X射线晶体学、后来是冷冻电子显微镜确定蛋白质结构。如今,人类已经积累20万个结构数据。
“基于20亿个序列,深度挖掘序列背后的规律,同时利用已经知道答案的这20万个结构,用训练出来的模型,就能比较有效地把至少已经实验解好的蛋白覆盖更广阔的空间,做出准确预测。”张林峰说。
AI成为加速蛋白质研究飞跃的必不可少的工具,正是因为这种科研范式的转变,让蛋白质结构预测迅速产生突破。
与此不同的是,今年诺贝尔物理学奖的成果为化学奖得主的工作提供了支持。“在某种程度上说,物理学奖不绝对是AI for Science,更像是Science for AI,物理系统启发的AI研究或许是物理学诺奖的特点。”张林峰相信,人工智能神经网络、机器学习的基础性发现可以为更多关键领域的研究提供基础的养料,对化学来说,AI是应用研究的那个工具。
不难发现,科学研究的范式正在从过去推导因果关系,进化到研究因果关系不明的复杂系统,折射出科研范式的变革已经发生。
简单系统是因为遵循了简单的规则,于是很简单、简洁。但复杂系统各有各的复杂之处。张林峰认为,如果想从复杂系统中真正有效地做出成绩的话,需要在不同的边界条件下对其进行洞察。“对AI系统来说,边界条件就是数据、算力、模型的情况。在这些不同条件下,其实它能够产生的涌现、能产生的突破是不一样。”
复杂系统虽然看似复杂,但背后其实是大量单一因素放大后产生的效果。“很难说是我们对复杂系统本身有了深刻的洞见,但至少在AI for Science的科研范式之下,我们对一些数据相对充足的科学问题的认识更加深刻,产生了量级式的突破。”在张林峰看来,之所以能产生AlphaFold这样的突破,来自于科学家们对AI for Science概念的提出,也来自国内外不断推动AI for Science从概念走向实践并不断加深认识。
从点的突破到走向统一 更多问题等待AI解决
时间回到2016年,那时的AI带给人类的本质能力就是建模高维复杂的函数处理大规模数据的能力。在这个时间节点,张林峰选择了一条更贴近AI本质能力的研究之路。
他认为,AI可以推动两种类型的应用:一种是数据准备充分,问题也很清晰,另外一种就自己早期所投身的一系列研究工作,即存在清晰的原理、物理规律和方程式,但过去在计算系统上挖掘物理规律的能力不够。“这个问题里面,其实最本质的需求是对复杂高维函数的建模。过去,因为没有AI这样的深度神经网络,只能凭经验去看谁跟谁有什么关系,而这样的一种经验性描述,往往很难具备普适性。”张林峰说。
正是抓住了这个关键的问题点,张林峰由此切入,从电子尺度的薛定谔方程、密度泛函理论到原子的分子动力学,在微尺度的研究上不断取得新突破。2020年,由他带领的团队,获得高性能计算领域最高奖戈登·贝尔奖,相关工作还获选2020年中国十大科技进展及2020年全球人工智能十大科技进展。张林峰的这项工作,在全球范围内将机器学习、物理模型、高性能计算结合起来推向新的极致。
不难看出,在AI早期两个鲜明的应用路线中,张林峰没有选择“低垂的果实”,但同样也取得了成功。
当然,这两条路线的成功并非是绝对的,也并非是平行的,而是交叉融合、相互存进。通过AI对物理规律深度挖掘,后续也吸引了许多追随者,开展了相应的研究工作。同样,AlphaFold取得初步突破后,张林峰带领团队很快复现了AlphaFold的全部工作,并在多方面进行拓展,而且开源了训练代码,深势科技成为首家复现并开源训练代码的公司。“国内外其实是在一个最前沿的方向上,边探索、边竞争,而且相关工作的探索研究才刚刚开始。”张林峰说。
业内有个普遍共识,AI的发展越来越走向统一。对于AI for science的发展来说,也进入了一个新的阶段,要解决的问题不是更少而是更多了。
从2017年Transformer大一统模型的出现,到2018年GPT-1第一代生成式预训练模型发布,再到2020年以来GPT语言模型不断迭代突破,一系列进展的深远影响在于,让过去在各个点上的探索变得统一起来。而这样的统一,首先是语言世界,然后是多模态的具身智能持续突破,特别是ChatGPT的出现,标志着AI进入新的发展阶段。
张林峰表示,“对于AI for Science来说,有了前面的几个鲜明的技术路线之后,反过来看,很多的科学问题反而变得不明确了。比如,对于物理规律来说,清晰的问题解决完之后,更多的新问题被打开。要进一步解决这些新问题,需要开启新的一系列的探索。”
如果说AlphaFold是在数据可及的情况下解决了蛋白质结构预测这样一个点的问题,那么在AI for Science的大图景上,要解决的则是一个由点及面的一系列更多的问题。
科研的安卓模式 “四梁N柱”立体产品矩阵
从国家大政方针到产业界、学术界,AI for Science已经受到足够重视,下一步其实面临着怎样搭建一个系统的AI for Science基础设施的问题。
如同Transformer、GPT之于语言世界、数字世界一样,在科学应用发现的广阔的空间里,AI for Science一系列基础性建设非常重要,也取得一定成果。
从2016年起,中国科学院院士、北京大学国际机器学习研究中心主任鄂维南就开始推动AI for Science。两年后,由鄂维南等人在北京大学策划组织的讨论会中,AI for Science这一概念首次被明确提出。在2023年科学智能峰会上,鄂维南提出共建AI for Science“四梁N柱”基础设施。他认为,发展AI for Science,推动走向“平台科研”模式,需要解决不同科研领域的共性问题,共建AI for Science基础设施,即“四梁”。以基础设施为支撑,也在赋能工业应用的实际场景,即“N柱”,将在材料科学、能源化工、航空航天、药物研发等方向上带来巨大变革。
据张林峰介绍,AI for Science 的总体任务是打造四大平台,支撑N个行业的工业研发发展。四大平台包括基本原理与数据驱动的算法模型与软件、高精度高效率的实验表征方法、替代文献的数据库与知识库、高度整合的算力平台系统。
当AI for Science变成一种新的科研范式,科研从过去的小农作坊式到平台化持续创新,针对底层创新的加速落地成为必须要做的一件事情。如果说以前充分挖掘数据规律是张林峰的一项关键工作的话,那么当下,对他们来说,最关键的工作是如何与有效的实验系统的联动。
顺承着“四梁N柱”的平台架构以及多年来积累的坚实底层技术能力,今年4月,深势科技发布了“深势·宇知”大模型体系,其中最核心部分就是面向微观世界的独特模态打造的一系列AI for Science大模型;以及面向科学文献的处理,打造的Uni-SMART大模型,面向实验表征信号的增强以及反演的增强,打造的表征相关的工作等。目前,这些大模型正在开枝散叶,进一步演化为下游工业场景中每个人触手可得的产品。
张林峰认为,现在的关键是要把基于“四梁”的平台化科研体系统做好,有了这些支撑和当下AI智能体的架构,未来的科学研究可能更多都是在云上完成,与在云上做计算类似。
在AI for Science不断发展过程中,深势科技不断加强计算系统和实验系统深度耦合,推动实现教学研究一体化的素质教育平台。
张林峰介绍说,从教学到科研,推动AI for Science的安卓模式,APP就是围绕“四梁”,既包括模型直接处理数据的APP,也有去控制实验或者说解析实验结果的实验APP,也有文献相关的APP。这些APP,既有自身开发的APP,也有生态伙伴、各个课题组自己的成果转化的APP。所以这是一个覆盖从教学到应用过程的平台升级。
回顾过去,人类有过不少科研范式变革的机会。对于AI for Science,中国的认识并不晚,也非常重视。去年,科技部会同自然科学基金委启动“人工智能驱动的科学研究”(AI for Science)专项部署工作,我国科研范式变革和科研能力提升加速推进。
张林峰表示,作为一种新的科研基础设施,在其构建过程中,中国拥有先发机会,有很好的系统统筹能力,也拥有足够丰富的实体经济的应用场景。深势科技将持续深耕AI for Science,并加快将研究转化为落地应用,切实赋能产业革新,成为促进国民经济发展的新质生产力。(记者 凌纪伟)