中国科学报:研发新冠病毒疫苗,高性能计算“显身手”
对于包括新型冠状病毒在内的医学研究,我其实是“门外汉”,但是因为从事高性能计算这个行业,认识很多使用高性能计算的应用专家,其中包括生物、化学和医学的专家,所以有机会从门外一窥他们的工作。
使用生物信息学找到病毒来源
对病毒进行基因测序,并利用测序结果,采用生物信息学的方法来比对和查找,找到病毒来源以及传播的最大概率宿主。
这其中,“生物信息学方法比对和查找病毒来源”部分需要计算资源。
要得到正确的结果,最重要的还是科学家采用科学严谨的方法来做工作,高性能计算设施能够加速这一过程。
这个过程中可能需要跑BLAST程序。BLAST主要用来寻找同源序列,此外还可能要用到基因组组装,多序列比对,进化分析相关的软件。
生物信息学相关软件非常非常多,我们在北京大学高性能计算公共平台上安装过一百多个,但在这个问题中科学家具体用哪些,与科学家的工作习惯关系很大。
目前,病毒的序列都已经是公开的,病毒的简单序列比对消耗的资源并不多,在线数据库就能做。
但是要做复杂详细的研究,还是必须要有高性能算的环境来加速。想必现在已有大量科学家如此开展工作。
2019新型冠状病毒资源库(http://www.cas.cn/syky/202001/t20200122_4732764.shtml)已经公布。
但是目前还没有完全确认病毒来源,所以序列比对的工作还要继续。
使用超算加速病毒疫苗或者特效药的研制
现代制药一般首先是搞清楚病毒的结构,然后再研究什么样的小蛋白分子能够与病毒结合,使病毒失去功能。
(一)获知病毒结构
要获知病毒结构,常见有两种方法。
第一种方法是,通过基因测序结果搞清楚结构。
这种方法主要靠“猜”,但要使用统计的方法保证“猜”的结果比较靠谱。一般而言,对蛋白质结构预测“猜”的方法主要有两个途径。
一个途径是从头模拟,目前Google的人工智能程序AlphaFold大概是猜测蛋白质结构最好的方法。
训练AlphaFold使用了相当大的算力,当然最主要还是设计AlphaFold的想法。
另一个途径就是根据序列上类似的蛋白直接进行同源建模,序列相似性越高结构模拟可靠性就越高。这方面的软件很多,常用的如swiss-model和I-TASSER等。
新冠病毒的基因序列和SARS等同源病毒的序列同源性非常高。
这些同源病毒都已经有高分辨率的结构,新冠病毒可以根据SARS病毒的结构进行结构预测,所以从头模拟(第一个途径)可能用得不多。
用AlphaFold等做蛋白质结构预测需要获得蛋白质序列,一般可获得的是基因序列。
从基因序列也可以获得蛋白质序列,所以利用AlphaFold获得病毒结构也是可能的。
第二种方法是,通过成像技术获知病毒结构。
成像技术是搞懂生物微观基本结构的最主要方法。
常用的分析蛋白结构成像技术主要分三类:核磁共振、冷冻电镜和X射线晶体学方法,且三种方法各有适用范围。
X射线晶体学方法最近有一个较好的结果,这里简单介绍一下。
近几年冷冻电镜破解结构相对热门,最近还拿了诺贝尔奖。
不过,使用冷冻电镜技术,病毒的培养、提纯和制样需要一定时间,没有测序那么快,不过一旦制样完成后就可以成像(拍照片)和重建(通过照片算三维结构)了。
在这过程中,高性能计算能够加速三维结构的重建,主要用到RELION软件。冠状病毒整体分子量较大,非常适合利用冷冻电镜方法对这个病毒的结构进行重建。
使用X射线获得的新冠病毒组成蛋白之一的结构也有人给出,上海科技大学和中国科学院上海药物研究所联合研究团队公布的“新型肺炎冠状病毒3CL水解酶高分辨率晶体结构”就是这种方法。
一般X射线晶体学方法进行结构解析要先对蛋白质进行纯化、结晶,需要一定的时间。
所以在如此短的时间内就就做出其中一个蛋白的结构很不容易,为他们点赞!
(二)找到能够让病毒蛋白质分子失效的小分子
小分子药物可竞争性地结合病毒蛋白质的功能位点,这样一来病毒蛋白质就不能和它真正的底物结合,从而抑制病毒蛋白质的活性。
Autodock是一个比较普遍使用的方法,目前大约有700万个小分子的小分子库。
每个小分子,要通过各个角度与蛋白质结合来观察能量释放情况,结合之后释放能量越多,结合就越稳定,那么这个小分子就越有可能做成药物。
这其中的计算任务不是很大,但是需要的计算总量很大,任务极其多,使用高性能计算(HPC)或者高通量计算(HTC)方法比较合适。
现在应该也有很多组在做这个工作,中国科学院上海药物研究所和上海科技大学联合研究团队发现一批可能对新型肺炎有治疗作用的老药和中药,就是这方面的工作。
另外,通过计算的方法找到一批可能的小分子后,接下来就是生化实验,以确定计算软件找到的东西是否真的可用。
目前疫苗的研发应该还是研发周期的问题,考虑到安全性试验,需要较长的时间。从一个外行的角度看,现在情况特殊,也许速度会快一些。
事实上现在没有任何一种冠状病毒的疫苗,不管新的旧的,包括S蛋白(S蛋白是病毒入侵的关键蛋白)入侵的分子结构机理都是不清楚的。
搞清楚这些过程也许需要成像技术(冷冻电镜)与分子动力学(MD)共同作用。
成像技术中大多用冷冻电镜,分子动力学用NAMD、gromacs等模拟软件。这些分子动力学软件运行一般也需要高性能计算平台。
不过,冷冻电镜做动力学过程非常困难,因为即使静态的成像,所用到的数据量和已经非常大,相应的的算力要求已经非常高。
(这篇文章在使用冷冻电镜做动力学过程领域做了一些探索:https://www.nature.com/articles/s41586-018-0736-4)
除此以外,还可以通过分子动力学的模拟,大致确定病毒的传染性。目前也有许多科学家做相关工作。
作者 | 樊春(北京大学科学与工程计算中心系统室主任、高级工程师)
整理|赵广立