2024年诺贝尔物理学奖颁发之后,我评论说那项工作实际上属于人工智能研究,跟物理学没有什么关系。为什么要给一项人工智能研究颁发诺贝尔物理学奖呢?这说明现在要在物理学方面找重大成果发奖已经不容易了,所以就跨界发给了别的领域。就像现在要在化学方面找重大成果来颁发诺贝尔奖也不容易,所以化学奖经常发给生物学研究,因为生物学方面可以获得诺贝尔奖的重大成果太多了,排着队等着发诺贝尔奖都发不过来。所以我说,今年的诺贝尔化学奖是不是会像往常一样,也发给生物学方面的研究?果然,第二天公布的化学奖就是发给了生物化学方面的研究,是关于蛋白质结构的研究。这个奖分成了两半,一半发给了谷歌DeepMind公司的两个科学家,通过人工智能的方法预测蛋白质的结构,这个成果太重大了,获得诺贝尔奖完全是意料之中的。另一半发给了华盛顿大学的贝克教授,是关于蛋白质设计的研究的。
获奖的都是关于蛋白质结构的。为什么关于蛋白质结构的研究这么重要呢?蛋白质是生物体内最重要的一类分子,抗体、激素、酶等等,全都是蛋白质。蛋白质的功能跟它的立体结构有关系。我们怎么知道一个蛋白质的立体结构呢?这是剑桥大学的人做出来的一个成果,也得了诺贝尔奖。他们采取的做法是,让蛋白质结晶形成晶体,然后用X射线去照射它,这样就会出现衍射现象,形成一个衍射图像。根据这个衍射图像就可以推测蛋白质的立体结构是怎样的。
但这样的研究存在着两个问题。第一就是很花时间。做出一个蛋白质的结构往往要花几年的时间,很多人读一个博士或者做一个博士后,就只是为了获得一种蛋白质的立体结构。而且并非所有蛋白质都能形成晶体,一个蛋白质结晶出来要靠运气。如果不能获得蛋白质晶体,就没法用这种方法去测它的结构,它的立体结构就没法知道。后来有了冷冻电镜的方法测蛋白质结构,研究速度还是很慢。虽然研究了70年,有很多人都在做蛋白质结构方面的研究,到现在总共也就获得约20万种蛋白质的立体结构。所以,人们一直想找到能破解蛋白质结构的简单方法。
蛋白质由20种氨基酸组成,氨基酸一个连着一个组成氨基酸序列。每一种蛋白质都有特定的氨基酸序列。氨基酸序列是由这种蛋白质的基因编码的,所以,如果知道了某种蛋白质的基因的核苷酸序列,就能知道它的氨基酸序列;而蛋白质的氨基酸序列又决定了它的立体结构是什么样的。如果让一种蛋白质变性(即让蛋白质的结构乱掉),再把变性的蛋白质放到合适的溶液里,它就会慢慢地复性,恢复成立体结构。而且恢复的立体结构跟原来的结构一模一样,没有改变,说明一种蛋白质的立体结构完全是由它的氨基酸序列来决定的。
那么,如果能根据一种蛋白质的氨基酸序列来预测它的立体结构,就简单了。现在测定基因的核苷酸序列太容易了,而只要知道了核苷酸序列,就可以推定氨基酸序列。不过这存在一个问题:根据氨基酸序列随机形成蛋白质的结构,有非常多的可能性。比如一个蛋白质有100个氨基酸,能够形成的结构可以多达10的47次方,而其中只有一种结构才是正确的。仅有100个氨基酸的蛋白质是很小的蛋白质,蛋白质往往都是几百个甚至几千个氨基酸组成的,可能性就更多,从无数的可能性中认定准确的结构就非常困难。
上世纪八九十年代计算机发展之后,人们想到可以通过编程来预测蛋白质的结构。我读博士时,这项工作刚刚开始。我们克隆出了一种基因,然后根据基因的序列推测蛋白质的氨基酸序列,再把这个序列输入程序,就可以预测蛋白质的结构。但当时预测的结果非常粗糙,只能预测局部的结构,即所谓的“二级结构”,而且准确性不高。后来,随着计算机速度越来越快、人们对蛋白质结构性质的了解越来越深、蛋白质的模式研究越来越多,预测的准确性也提高了。而因为参与的人多了,都在编各种各样的程序,也就开始有竞争、比赛了。
从1994年开始有一种蛋白质结构预测的比赛,比谁的预测程序准确性更高。但进展一直比较缓慢。2018年,谷歌的DeepMind公司参与了比赛。他们最开始研究的是下围棋的人工智能AlphaGo,这项工作完成后就把重点放在了人工智能预测蛋白质的结构。DeepMind参赛程序AlphaFold一开始的准确率并不是很高,直到2020年底,他们这项工作才有了重大突破,搞出了另一个版本的程序AlphaFold2。只用了一年时间,就把人类已知的所有2亿多种蛋白质的结构全都预测了,而且准确性非常好,80%的结构都跟通过X射线的衍射实验获得的结构一样,或者差不多。那么多的实验室参与,用实验方法研究了70年,才获得20万个蛋白质的结构,而它只用了一年的时间就把所有2亿多个蛋白质全都预测了。用实验方法测一个蛋白质的结构要几年的时间,用预测方法几分钟就测好了。
华盛顿大学的贝克教授是一个生物化学家,他的实验室主要做生物化学方面的研究。他同时也对蛋白质预测很感兴趣,自己编了一个预测程序罗塞塔去参加预测蛋白质的比赛,预测的准确性还可以,成绩不错。他想到一个别人没想到的做法。别人做蛋白质预测都是要根据氨基酸的序列来知道蛋白质的立体结构,他想到的是根据想要的蛋白质的立体结构,让罗塞塔预测一下应该有什么样的氨基酸序列。以前要获得某种蛋白质的结构,是在已有的蛋白质的序列基础上改掉某一个或几个氨基酸做突变,看发生了什么样的变化、能不能获得想要的结构。而贝克想到的是,抛开已有的所有蛋白质,“从头设计”一个新的蛋白质。
2003年,他们实验室设计出一种蛋白质,让罗塞塔程序预测什么样的氨基酸序列会得到这样的蛋白质结构。再根据预测的结果反推什么样的基因序列能得到这样的氨基酸序列。然后根据基因序列合成核酸,把这段核酸放到细菌里,用遗传工程的方法让细菌根据这段基因生产蛋白质。最后把获得的蛋白质结晶出来做X射线衍射,测它的结构。结果发现,获得的结构跟一开始设计的结构符合得很好,而获得的蛋白质是一种全新的蛋白质,其结构也是自然界没有的、全新的蛋白质结构。这就是所谓的“蛋白质设计”。在2020年之后,他们也用人工智能的办法做蛋白质设计,一个一个地设计出各种各样结构的蛋白质。
不管是蛋白质结构的预测,还是蛋白质的设计,都是非常重要的工作。它们不仅有很重大的基础研究价值,让我们知道细胞的生理功能;而且有很大的实用价值,可以用来研究疾病是怎么产生的,用来设计药物、疫苗。这两项工作获得诺贝尔奖是实至名归。
2024.10.08录制
2024.11.11整理