Kindle电子书
EPUB、MOBI、AZW3电子书资源

第7章 生命的编码

“我们发现了生命的秘密!”

在发现遗传密码DNA结构的那一天,英国剑桥市自由学校路上的老鹰酒吧里传出了这句流传后世的欢呼。

我强烈怀疑这句话是后人杜撰出来的,实际上的对话可能是:“嗨,吉姆,来点儿什么吗?”“来一品脱拉格啤酒,弗朗西斯。”“好的。请给我一杯拉格和一杯吉尼斯,再来两份脆猪皮片。”这样的对话也许更有可能。

好吧,也许我不该再继续破坏人们的浪漫幻想。1953年2月,借助罗莎琳德·富兰克林(Rosalind Franklin)拍摄的X射线照片,詹姆斯·沃森和弗朗西斯·克里克发现了DNA的结构。毫无疑问,这是生命科学史上一道里程碑式的发现,是人类在探讨生命本质的进程上迈出的至关重要的一步。DNA就像一本指导地球生命如何构成的说明书,是名副其实的细胞密码。

在DNA结构被解析后的许多年内,人们都将DNA视作演化在偶然中产生的特殊产物。在地球之外的其他星球上也演化出类似结构并不是完全不可能,但这种概率也低得惊人。在讨论遗传密码演化的早期论文[1]里,克里克将DNA的出现称作生命诞生过程中一次“被冻结的意外”,这种结构自出现就立刻被“冻结”,牢牢固定在生命的基石之上,一旦失去这种结构,细胞就会受到毁灭性的打击,有很大概率会死亡。所以,一旦这种关键的编码机制及其结构的构建完成并开始行使功能,任何微小的错误或改变都将是致命的。不过,尽管上述这种看法非常具有说服力,但如今,越来越多的发现表明这种看法也许是错误的。

在这个章节里,我们将会把目光聚焦于生命的下一层级,不再讨论细胞本身,而将重点放至编码并制造细胞形式的分子之上,从更加微观的角度考察演化中的选择。在这个过程中,我们同样也会看到物理学原理在其中起到的不可磨灭的作用,它们通过生命的化学作用将生命密码引导成为一座恢宏的大厦,远远超脱于单纯的偶然性产物。

DNA分子具有双螺旋结构,如果将螺旋平整展开再放大,就能看到两条DNA骨架。DNA骨架由多个重复的磷酸与脱氧核糖(一种单糖)单元构成,这两种化学物质组成了DNA“梯子”的竖杆。在两条骨架之间则是记录着遗传机制的信息,它的结构类似于梯子的横档,组成遗传密码的“字母表”包含4个“字母”,分别为腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G),它们被称为碱基,沿着两条骨架依次排列。这4种不同的碱基的串联排列有无穷多种方式,正是这些排列方式“拼”出了细胞生长、修复和复制需读取的各种信息。

这4种小分子具有一些特殊的性质,比如它们能够与组内的其他成员发生特定的结合: 在正常情况下,腺嘌呤A只能与胸腺嘧啶T互相结合,而胞嘧啶C只能与鸟嘌呤G互相结合,这种结合形成了DNA碱基对。由于这种碱基配对的特异性,如果DNA骨架的左侧是一个腺嘌呤A,那么右侧就必定是一个与之互补的胸腺嘧啶T;依此类推,胞嘧啶C与鸟嘌呤G也是同样的道理。这两类碱基对(A-T和C-G)遍布于DNA分子中,其两端与DNA骨架相连,沿着双螺旋的轴心向下旋转。

我需要指出,这是一种不寻常的特性。在自然界中,只有很少种类的分子会以很高的特异性相结合,形成某类小而紧密的结构。这看起来像是一种偶然的巧合。

沃森和克里克并没有放过这个显而易见的奇怪特性,在描述DNA组装的论文中,他们这样写道:“我们立即注意到,我们推定的这种碱基配对的特异性表明遗传物质可能具有复制机制。”[2]试想我们将一条双链DNA从中间分开,基于碱基互补配对的原则,任意一条单链DNA都能作为模板重新合成另一条单链DNA——A的配对碱基一定是T,C的配对碱基一定是G。由此,这两条单链能够制造出两条双链DNA分子。

遗传密码的核心是A、T、G和C这4种化学分子。为什么是4种?这个数量是随机的吗?为什么不是2种、6种或8种呢?[3]

一部分科学家认为,在生命出现的很久以前,世界上并没有DNA,只有DNA的近亲——RNA。在今天,RNA是DNA(遗传密码)与蛋白质(行使功能的最终产物)之间的媒介。与DNA相比,RNA分子的反应活性更高,化学性质更不稳定,因此RNA分子有许多非凡的能力:它们能够自我折叠,能够形成活性分子(如蛋白质)催化化学反应,甚至能够自我复制。这些科学家们推测,40亿年前的世界是一个“RNA世界”,占主导的具有自我复制能力的分子是RNA,它与蛋白质结合或发生反应。[4]最终,通过某种尚未明确的机制,RNA中的字母序列被编码至更稳定的DNA,而DNA分子取代RNA分子成为如今细胞中存储信息的遗传物质。

设想遗传密码仅由两种字母构成(例如只有C和G),整个密码就会像一串很长的莫尔斯码。在RNA世界中,RNA分子能够像今天一样互相结合形成C-G碱基对,因此可以折叠形成能够复制、发生化学反应的复杂结构,但是,由于RNA分子是单链,这种配对在形成高级结构的层面上,并不具备很高的特异性:某个C可以结合链上任意一个G,假设RNA单链上出现G和C的概率相同,某个碱基可以与整条链上高达50%的碱基相结合,这就大大增加了结构的非特异性。与此相对,如果加入另外两类碱基A和U(U是尿嘧啶,RNA特有的碱基,它取代了DNA中的胸腺嘧啶T,与A配对),将碱基的种类增加为4种,更为复杂的结合法就包含了更多的信息,让RNA分子更复杂。同时,增加的碱基种类显著降低了每个碱基的错配率(由50%下降至25%),提高了RNA结构的精细程度。本质上,碱基的种类越多,相同长度的分子能携带的信息就越多。换句话说,在信息载量相同的情况下,碱基的种类越多,遗传分子的长度越短。

不过,如果碱基的种类超过了4种,比如有6种或8种,尽管理论上我们能够在相同条件下编码更多的信息,但是新的问题也会随之而来。在碱基种类增加的同时,由于复杂度的增加,分子复制时寻找配对碱基的难度也会随之上升,这同样会导致配对错误率的提高,增加复制过程中出错的概率。计算机建模的结果表明,对于早期存在的分子复制而言,4是一个恰到好处的碱基种类数目。

其他证据也得出了相同的结论。科学家们使用计算机模型模拟RNA分子的繁殖和演化,研究结果表明,在所有可能的碱基数量中,使用4种碱基能在最大程度上保证RNA分子的稳定性与演化能力。

所有这些想法都有一个同样的困境:我们并没有时间机器,不知道过去的情况究竟是什么样的。在地球早期,分子的复制是否与我们想象的情况相同?RNA世界是否存在?存在的话是否如我们设想的一样?一切都没有定论,但这些模拟试验从未得出与地球生命的客观事实差异较大的结果。我们没有找到某一个使得生命或演化更有效率的碱基数目,我们的发现告诉我们现有的生物学结构已经是最优化的结果了。[5]上述结论并没有排除克里克提出的“冻结意外”理论,即认为某条偶然发生的演化路径在早期生命结构中被固定,再也无法被轻易改变的理论。此外,上述推论是基于“RNA世界”的假设,而这个理想中的RNA“全盛期”位于一个遥远而模糊的时间段。虽然存在这些认识上的局限性,但研究结果表明,遗传密码的结构和读取方式并不是一个偶然。相反,在众多路径、方向、反复试验中,生命产生了符合物理学定律的、可预测的结构,而我们正在开始逐步理解这些定律。

数字“4”本身可能具备了一定的意义,但是任意4种化学物质就能组成生命密码吗?无疑,现有的碱基一定有什么特殊之处,使得只要将它们以不同的组合简单排列成链,就可得到可供识别的字母代码,用以构建生命形式所需的各种要素。

自21世纪初以来,人们在修改自然遗传密码的方向上已经取得了非凡的进展。合成生物学家们试图创造出A、T、C、G之外的遗传密码,以扩展生命的“字母表”。[6]引入更多种类的字母可以让遗传密码装载更多的信息(虽然复制错误率也会随之增加),利用这种方法,或许可以制造出能够生产新药或其他有用产物的细胞。为了达到以上目的,合成生物学家们首先需要理解遗传密码结构的演变过程,并思考有没有其他的化学物质来实现它们的功能。在几乎无穷的物质世界里,遗传密码是否还存在其他选择呢?

实验研究结果表明,有一些化学物质可能可以代替碱基,它们具有与碱基相似的化学结构,不过在原子排布方式上略有不同,比如黄嘌呤核苷和2,4–二氨基–嘧啶,这两种碱基类似物也能相互配对;[7]再比如异鸟嘌呤和异胞嘧啶,它们的分子式分别与鸟嘌呤(G)和胞嘧啶(C)相同,只是其中的一些原子翻转到了不同的位置。研究者甚至将一定量的异鸟嘌呤和异胞嘧啶掺入了活细胞中,细胞误认为这些碱基替代物是普通的碱基,在DNA复制的过程中将它们掺入了核酸链。[8]

此类实验告诉我们,自然界可以使用不同的基础密码。但为了进一步回答为什么自然界选择了现有的碱基,研究人员需要系统地尝试各种不同的化学物质。许多机构的科学家都在煞费苦心地研究RNA中的碱基替代物,从美国的斯克里普斯研究所、哈佛大学到瑞士的苏黎世联邦理工学院。[9]这种研究工作就像是在整个化学物质的领域“旅游”,尝试各种方向并试验其是否会对碱基配对造成影响。

一些科学家试图用六吡喃糖构成的碱基构造RNA,六吡喃糖与我们熟悉的碱基在化学上具有相似性,只不过六吡喃糖含有6个碳原子组成的碳环,而非5个碳原子组成的碳环,因此体积比现有的碱基略大。较大的体积将会阻碍六吡喃糖形成合适的碱基对,所以,仅当某个化学基团(-OH羟基基团)从某个碳环上被除去时,六吡喃糖才能发生碱基配对。六吡喃糖并不是天然存在的遗传密码,这项研究表明生命所选择的4个字母并不是随机的,原子的排列与构成在遗传密码的组装中起到了重要的作用。如果化学分子太大,它们将无法配对。

化学家们艰难行进,开始尝试更多的可能性。他们开始制造RNA的同分异构体,同分异构体指拥有相同分子式,但化学基团的位置不同的分子,例如戊吡喃糖基–2'变成戊吡喃糖基–4'。通过制造同分异构体,研究人员发明了全新的有效碱基对。有趣的是,某些配对的强度甚至超过了天然RNA中的碱基配对,这是否表明,这类新碱基是一种未被发现的、优于现有碱基的化合物,在一成不变的核酸世界外,为人们提供了一种更加合适的基因密码?

核酸的一个重要特征是灵活性,碱基对必须能够灵活地“开关”,以复制遗传密码或读取它们形成蛋白。在我们假想的RNA世界中,碱基对不仅需要足够坚固,以维持正确的折叠结构,还不能太过坚固,以让它们保持一定的灵活性,能够实现折叠。所以,如果合成碱基间的结合力强于天然RNA,这些分子可能就不能提供生命活动所必需的灵活性。由此看来,使用合成碱基也许并不能优化现有的RNA。自然界中现存的结构也许并不是配对结合力最强的结构,但一定是优化之后的产物。

合成生物学家对遗传“字母表”选择的研究当然不止于此,我们相信他们的研究最终将会告诉我们,在生命信息存储系统构建的过程中,演化做出过哪些基本的、年代久远的选择。不过,就目前的研究结果而言,我认为,承载遗传信息的化学物质的选择过程受到了简单物理定律的制约。

让我们接着探究读取遗传物质的过程。在把遗传密码转换成某些更具有功能性的物质的过程中,偶然事件的影响会不会更大呢?读取遗传密码的第一步是生成碱基与DNA互补的RNA链,这条RNA链被称为信使RNA。“信使”之称得名于其功能,信使RNA与长链DNA互补,携带遗传信息并将其转化为蛋白质。合成信使RNA的是RNA聚合酶,RNA聚合酶是一种大分子生物酶,它沿着DNA链滑动,与碱基相结合,新合成的RNA链像触手一般从原有的DNA链旁伸出。

信使RNA还能与另一种RNA分子互相结合——转运RNA。转运RNA像一辆辆小车,携带着氨基酸——氨基酸是构成蛋白质的基本单元。每种转运RNA各自携带特定的氨基酸,与信使RNA上的序列特异地结合。

每个转运RNA与信使RNA上的3个字母结合,这3个字母被称为遗传密码子。当转运RNA以3个碱基为一个单位沿着信使RNA链排列时,它们所携带的氨基酸彼此接触、结合、形成氨基酸链。上述整个过程都在核糖体内进行,核糖体是一种巨大的RNA复合体,新合成的氨基酸链从核糖体的内部穿出,就像一条蛇从洞里钻出来一样。一旦整条氨基酸链与核糖体分离,这条长链将自发地折叠在一起,形成复杂的高级结构。蛋白质就这样生成了。这些新生的生物分子已经具备足够的能力去进行化学反应、参与生物膜的构建,或完成生命自我复制过程中的某项任务。

从DNA到RNA再到蛋白质,从一方面来看,生命的读码是一个简洁的过程。首先,DNA的4种碱基被信使RNA读取成一条消息,然后转运RNA制造出了一串氨基酸链,即蛋白质。另一方面,生命的读码又是一个极为复杂曲折的过程。仅4种能够互相配对的化学分子就组成了能产生环境中数百万种天然物质的生命密码。生命密码产生的蛋白质仅由20种氨基酸组成,而自然环境中存在的蛋白质却多得难以计数。

让我们回想一下,构成生命信息的“工具箱”中有哪些必需的东西:在RNA和DNA中,有5种主要的碱基(DNA中的A、T、C和G,以及RNA中的A、U、C和G),由磷酸基团及核糖构成的骨架,一些转运RNA(至少需要31种)和20种氨基酸。一些细胞会使用另外两种氨基酸——硒代半胱氨酸和吡咯赖氨酸,这使得生命能够使用的氨基酸总数增至22种。综上,我们所拥有的完整的信息存储系统——从编码到解码——由不到60种功能分子组成。我们可以从两个完全不同的角度看待这一事实:这个系统的产生要么是概率极低的偶然事件,生命有千百种其他的途径;要么是有选择性的,只有几条,甚至一条定向的途径。这60个左右的分子到底是不是宇宙中特殊的存在呢?这个问题可能是破解遗传密码之后,生物学家们所面临的最有研究意义的挑战之一。它的答案将会决定生命代码及其产物的结构到底是纯粹的偶然产物,还是由更深刻的物理学原理塑造的。

在上文中,我们提到了生命的编码由4种碱基构成,那么,下一个问题就是:我们该如何给不同的氨基酸分配对应的代码?每个氨基酸由DNA上的3个连续碱基编码,每个位置上的碱基存在4种可能性:A、C、G或T。所以,氨基酸密码最多有4×4×4=64种可能的组合。然而,在大多数情况下,生命仅需要20种氨基酸(少数情况下需要22种)。这说明,每种氨基酸对应的代码不止一种。这种代码的冗余现象被称作遗传密码的简并:在氨基酸密码的对照表中,64种字母组合被分配至22种氨基酸上,不同的字母组合能够编码获得相同的氨基酸。除了常规的氨基酸外,遗传密码子中还有两个特殊的“标点符号”——起始密码子和终止密码子,这两者分别标志着翻译的起始与结束,定义着基因的起点与终点。每个基因编码一整个蛋白质或蛋白质的某一部分。

这张氨基酸密码表揭示了氨基酸与三联密码子的关联,它类似于罗塞塔石碑,帮助人们理解DNA这种“语言”。[10]尽管在细节上存在些微差异,但氨基酸密码表的基本布局普适于各种生命。这暗示着地球上的生命可能存在一个使用该套密码系统的共同祖先,该祖先在演化过程中将这套系统遗传给了之后的所有后代。这套密码表最初是如何出现的?是不是某种偶然事件最终导致了该系统的产生?科学家们一直试图探究这些问题的答案。虽然事实还不明朗,但科学家们内心大多相信这张表的诞生并非随机事件,而是在特定条件下被选择出来的。

在读取遗传密码时,减少错误率是一个不可忽视的要素,无论是在密码的复制还是在密码转化为蛋白质的过程中。将一种氨基酸和多种密码子相互配对或许是为了降低错误率。[11]

有趣的是,相同氨基酸的密码子往往非常类似。比如丙氨酸的密码子是GCU、GCC、GCA和GCG,只有密码子的第三位不同。其他氨基酸,例如甘氨酸和脯氨酸也符合同样的规律。这种编码机制能够增加密码读写的容错率,哪怕在代码中存在一些微小的错误,也不会改变氨基酸,蛋白质的功能也不会受到影响。代码中出现的意外改变可能源于代码自身的突变(辐射或DNA上的化学修饰都可能诱发突变),也可能源于信使RNA在被翻译时产生的错误,密码子的多对一在这几种情况下都能有效减少错误产生的危害。同时,化学性质相似的氨基酸也更倾向于具有相似的密码子,可以预见,这更进一步地降低了DNA突变或错读对于蛋白质产物的负面影响。[12]

如果我们用计算机模拟可能产生的密码子–氨基酸对,我们就会发现自然界中的密码子是多么非同寻常。在上百万种可能的组合中,我们所拥有的密码系统能够在最大程度上减少翻译错误带来的后果。[13]

对于大自然为什么选择这样的代码表,背后还有着另一条引人遐想的线索。科学家们发现精氨酸恰好也能够结合编码精氨酸的密码子(信使RNA上的三碱基),在通常情况下,精氨酸的转运RNA才是精氨酸密码子的结合对象。同样的结合也在异亮氨酸中被发现。一些研究者认为,密码子表可能起源于氨基酸和某些短链RNA的相互吸引——甚至在转运RNA作为中介物出现以前,这样的机制可能就已经存在了。或许当时的氨基酸就直接与信使RNA相结合,无须今天的这些复杂机制。正是这种互相吸引为RNA解码成蛋白质的过程奠定了基础。

在考虑问题时,人们或许很容易陷入非黑即白的误区,不过,在考虑所有可能的情况时,我们不妨想想是否所有的假设能够同时存在。[14]我们可以合理猜想,最初,某些氨基酸能够与特定的RNA片段结合,形成了第一个密码子,这种相互作用能够较为合理地解释为什么特定的密码子编码了特定的氨基酸;与此同时,演化也会倾向于选择能将错误影响降至最小的代码,这种影响至少需要减少到不至于妨碍正常的生育繁殖。错误越少,后代就更有可能存活,这样的系统也就更容易被保留下来。随后,突变的发生将会导致密码表的重新分配,为代码表的进一步优化创造可能。

这种看法似乎存在着一些自我矛盾。如果这张密码表真的如此重要,作为遗传、翻译机制的核心部分,它应该完全被固化在早期的生命体中,很难再发生改变才对。用克里克的话来说,即成为一次“冻结的意外”。不难想象,在这套信息系统产生之初,它还存在着不少问题,是一套“个人色彩”强烈的早期不成熟系统;同时,由于它在生命过程中不可或缺,对该系统的改变又会导致生物的死亡。这听上去不太合理。确实,合成生物学家们发现,他们在实验室中可以人为地将密码子重新分配给全新的氨基酸,所以生命可以试验的选项比我们想象的更多,存在灵活变化的空间。在自然环境下,哪怕是在遗传密码的基本体系结构建立之后,也有许多方法能够改变密码表的组成。比如某些细胞可能会停止使用某个密码子——这可能是由于产生对应转运RNA的基因发生了突变,所以细胞不再能够产生该氨基酸。不过,之后细胞却能复制另一个转运RNA的基因,并通过突变修改该基因,使之达到与缺失基因相同的效果。由此,全新的密码子表出现了,通过这种“重分配”,遗传密码就发生了改动。就像新陈代谢途径一般,生命能够在不同的途径间转换,进行新的试验。

生命中的生化反应能够调整变化,这一事实有着更为深远的意义。像掷色子一般的随机事件可能并不会像“冻结的意外”一样突然出现并不可动摇地固化在生命历史之中。如果生命具有改变自身分子机制的能力,那么生命就能够依照物理学定律自我调整,甚至是在物理学定律的作用下优化。自生命出现之始,它就没有完全受分子机理的约束。

不过有一个问题依旧存在:生化反应的可变区间到底有多大?如果有一群完全不了解地球,但具有一定基础生命科学知识的外星人对地球上的生命进行预测,他们是否能够先验地预测出地球生命的现状——使用4种碱基,并有一张对应的密码翻译表?

为了回答这个问题,我们还需要知道更多关于遗传密码的知识,包括但不限于遗传密码可灵活变化的区间及其演化史。合成生物学家们的研究或许能使我们更接近问题的答案,不过我认为,遗传密码不仅是一场不会在其他地方重演的历史偶然。四碱基的密码系统有着充分的存在优势:在一众化学物质中,这4种碱基具有某些特性,能够优化遗传信息的储存、可变性及复制能力。除此之外,密码子表的分配也不是随机的。尽管我们至今仍无法完全阐明产生如今遗传密码子表的确切历史事件或选择压力,但产生密码表的许多条件——从氨基酸对RNA的亲和力,到最小化错误率的倾向性——都表明这一切不是偶然,必然有着物理化学原理的支撑,而化学原理本质上又与原子物理相关。

与生物学中的绝大部分研究一样,在对生命系统获得基础认识之前,预测遗传密码的形式几乎是一件不可能完成的任务。[15]在DNA结构被发现之前的1950年,没有人能够预测遗传物质的细节。一些科学家认为这种特性是生物学和物理学之间的本质区别之一,即物理学具有一些能够用于预测的定律和方程式,而生物学却没有,生物学必须基于一定的事实才能做出判断。事实上,这种比较并不公平。在对生命做出预测之前,我们确实需要了解遗传密码及其化学性质,这些知识都是新近获得的。但物理学家们同样需要先了解一些基本现象(如气体在不同温度和压力下的反应)才能构想出与之相关的物理定律(如理想气体方程)。基于对遗传密码的初步认识,人们已经能够建立相关的计算模型,通过计算机模拟预测不同情况下遗传发生的错误率,判断并比较不同密码表的优劣。通过将计算机模拟与实验相结合,科学家们能够切实地探索、预测并验证遗传密码的效率。合成生物学的研究内容是设计新的密码,并将它们整合到生物体之中,因此它很依赖预测能力。合成生物学的成功与否,取决于研究者能否精准地预测新产生的化合物或生物。

遗传密码的复杂性可能远高于简单的气体模型(比如一个装有氦气的盒子),这种复杂性提高了使用模型或简单方程进行预测的难度,将这类研究与之前的许多研究区分开来。然而,这种复杂性并不意味着遗传密码脱离了物理定律,也不能表明遗传密码是发生概率极低的偶然产物。毫无疑问,比起研究遗传机理,物理学家在研究气体性质时受到的物理限制更明显,但这并不意味着这两类研究是两种截然不同的类型。随着人们认识的不断加深,遗传密码其实能用一些比人们预想的更简单的物理、化学原理进行解释。

接下来让我们把目光聚焦到基因编码的最终产物——蛋白质身上。在蛋白质生成的过程中,我们同样能够感受到定律的作用。遗传密码解码的最后一步是将RNA转换为氨基酸长链,这条长链将会折叠成蛋白质,作为生命真正的功能分子:构成细胞的酶或结构单元。[16]

好奇的研究者一直想知道,蛋白质中氨基酸的数量和种类是不是随机的。[17]毕竟,在非生物领域,存在着数百种氨基酸。对于这个问题,一开始的研究认为,给定一些随机的变化,生命不一定会预先选定20种氨基酸,但也有一些结果表明演化是非随机的。[18]然而,2011年,盖尔·菲利普(Gayle Philip)和斯蒂芬·弗里兰(Stephen Freeland)在《天体生物学》上发表了一篇精妙的研究论文,在论文的开头,他们提出,在所有决定蛋白质结构的氨基酸性质中,有三种性质特别重要。[19]

首先,氨基酸的大小将在很大程度上决定氨基酸长链的折叠,以及它是否能够正确缠绕成为活性分子。其次,氨基酸的带电性也十分关键,带负电荷与带正电荷的氨基酸能够相互吸引,形成一种“桥梁”加固蛋白质结构。在整个蛋白质中有无数这样的“桥梁”,它们是氨基酸链形成清晰、有序的结构,能够正常执行功能的重要保障。最后一种性质是氨基酸的疏水性。由于不同蛋白质所处环境不同,有些蛋白质可溶于水,而有些则处于几乎无水的细胞膜中,根据不同情况,蛋白质需要对水分子表现出不同的亲和力。氨基酸的亲疏水性将会改变蛋白质间的相互作用,也会决定蛋白质是否会被吸引到某些缺水的细胞环境中,例如细胞膜的深层内部。

菲利普和弗里兰首先选取了一些氨基酸,然后通过计算机程序从中再选出一种组合,选取的标准是该组氨基酸需涵盖各种不同的大小、电荷以及亲疏水性。除此之外,各种参数需均匀分布于整个范围内,防止生化属性处于某个特定区段的氨基酸过多重复。菲利普和弗里兰认为这种分布模式对生命而言是最佳的。均匀的分布使得生命可以方便地找到任何足够接近理想产物的氨基酸。举个现实生活中的例子,这些性质多样的氨基酸就像工具箱中各种尺寸的螺丝刀。我们肯定不希望它们全是大号或小号。相反,我们希望从大到小每种尺寸都有一把,这样才能大概率保证在你想要拆下一扇旧门的门闩的时候,工具箱有你需要的尺寸的螺丝刀。

菲利普和弗里兰在这项有关“覆盖率”(此处指广泛、均匀分布的性质)的研究中所使用的第一组氨基酸是从默奇森陨石中发现的氨基酸。之所以选择陨石中的氨基酸,是因为我们可以假设在生命出现之初,有大量氨基酸从天外落到地球上。在陨石中,人们一共发现了50种氨基酸,其中有8种是生命真实使用的氨基酸,其余42种至少据我们目前所知并不存在于生物体内。菲利普和弗里兰试图从这50种氨基酸中选取一种组合进行测试,在选取时,他们排除了一些具有分支结构的氨基酸(共16种),这些支链氨基酸体积过大,理论上会阻碍蛋白质形成。

他们的发现令人震惊。

他们将生命中实际使用的20种氨基酸与陨石中50种氨基酸的100万种随机组合进行了比较,发现真实氨基酸在三个关键因素方面的覆盖率比任意一组模拟氨基酸都高。这说明,生命对于氨基酸的选择绝不是随机的,相反,氨基酸的种类很有可能是通过演化选择得出,以获得对蛋白质有利、广泛、均匀的分布模式——就像人们更愿意购买工具种类更多、更灵活方便的工具箱一样。

不过,人们在陨石中仅发现了8种生命所使用的氨基酸,事实上,其余12种氨基酸都是这8种原始氨基酸的衍生物。也就是说,起初生命中可能只有8种原始氨基酸,随后,细胞中一些新生成的合成途径产生了其他的衍生氨基酸。因此,研究人员重新进行了分析,这次他们仅搜索了陨石中任意8种氨基酸中的最佳组合。在这些组合中,只有不到1%的组合覆盖率优于真实生命中使用的8种氨基酸,且三种特性都更好的组合少于0.1%。这个结果同样不可思议。

我们注意到,有0.1%~1%的氨基酸随机组合在覆盖率上超过了天然的氨基酸,这是否表明,可能有更好的氨基酸组合存在?确实,生命对氨基酸的选择有一定的非随机性,但是,如果仅考虑8种氨基酸的组合,是否还有别的演化选择分支?这类问题需要谨慎回答。菲利普和弗里兰自己也强调,他们只选择了氨基酸的三种特性进行分析,但氨基酸还有其他重要的特性,例如它们在蛋白质链中的灵活性,这取决于氨基酸的空间结构。

在实验的最后,研究者们扩充了用以选择的氨基酸范围。在50种陨石氨基酸外,他们还增加了陨石未包含的12种生命编码氨基酸,和细胞在合成那12种生命氨基酸过程中作为中间产物的14种氨基酸。从这76种氨基酸中,研究者再次随机选取20种氨基酸进行组合——在百万种可能的组合里,还是没有一种能够优于天然的氨基酸组合。

菲利普和弗里兰的研究结果令人振奋,不过还有更多的问题有待解答。在地球早期,生命诞生之初,哪些氨基酸含量较高?除了上述的三种特性之外,在决定编码氨基酸时,还有哪些重要的特性需要考虑?毫无疑问,随着人们对于早期地球与蛋白质的认识不断交叉加深,这两种知识互相融合,我们能够更加接近这些问题的答案。不管如何,菲利普和弗里兰的研究确实有力地展示了编码氨基酸选择的非随机性,除非发生了某种奇怪的巧合,或者他们不小心跑错了程序。这20种氨基酸由于广泛、均匀的分布脱颖而出,从生命出现的早期就开始肩负起构建海量蛋白质的重任。

近年来,合成生物学家们已不只满足于从DNA层面上改变遗传密码,他们已经成功地将新型氨基酸掺入细胞中的蛋白质内。[20]在现代分子生物学工具的帮助下,人们希望可以通过引入某些非天然氨基酸,开发出全新的疾病疗法。这些掺入非天然氨基酸的人为设计蛋白展现出科学研究上的无限潜力,也引起了对伦理问题的关注。

在我们研究这些新奇的人造产物时,我们或许会觉得它们从某种角度证明了生命的化学反应存在一定的可变区间,生命中现在使用的氨基酸或许只是某次随机产生的“冻结意外”。毕竟,如果某些新氨基酸能够加入现有的生化反应,就意味着或许生命并不是不能加入某些氨基酸,只是那些新的氨基酸会打乱现有的配置。[21]也就是说,如果能让演化从头来过,生命或许会选择另一批全新的氨基酸,这些氨基酸可能将会表现出与现有氨基酸完全不同的、激动人心的生化性质,其中可能就包括了今天合成生物学家们所使用的某些氨基酸。

然而,自然演化与合成生物学家之间存在着一个本质的区别。科学家的研究是带有目的性的,比如寻找具有特定用途的生化性质用来制造高效药物或应用于工业用途。由于合成生物学家能在一定程度上预见产物,所以他们会选择特定的氨基酸装配入细胞以达到预期效果。然而,生命希望其所选取的氨基酸通用于多种蛋白质,并在其过程中将能量的需求最优化。假设生命有10组、每组20种氨基酸可用,每组氨基酸各自行使一些功能,那么生命所耗费的材料和能量就比使用一组要多得多。在复制、增殖过程中,细胞使用的各种生化途径的能耗更少,它们就能在环境中占据更有利的优势。这个道理同样也适用于遗传密码的扩展。我们可以在遗传程序中人工添加代码,在实验室里,科学家们已经能够制造出使用较为稳定的包含更多“字母”的遗传密码的微生物,但这一切并不意味着这些扩展的密码子能为使用它们的“新生物”带来长期的优势,要知道,现存地球生命中的四密码子系统可是历经了自然环境数百万年的考验,是在食物、资源的可怕竞争中留存下来的最后胜利者。

菲利普和弗里兰的研究表明,面对压力,生命更有可能采用小型的通用“氨基酸包”,这些氨基酸具有分布广泛且均匀的生化性质,从而在限定条件下赋予生命最丰富的创造可能。这种动机与合成生物学家的动机有很大差异。在实验室里,生命在合成生物学家的引导下使用更多的氨基酸来构造蛋白质,并不能说明完整的生物体在真正的环境和选择压力下也会采用这些氨基酸。生命需要在所有情况下选取最具多样性的最少组合。

当然也有一些小的例外,例如我们能在一些蛋白质中找到硒代半胱氨酸。硒代半胱氨酸是一种非常见氨基酸,其中的硒原子似乎能够增强蛋白质应对抗氧化剂的能力。[22]另一种非常见氨基酸是吡咯赖氨酸,存在于一些产甲烷微生物中。[23]这两种化合物将生命使用的氨基酸集合扩展至22个。这表明当面对某些特定的生化要求时,构建蛋白质的氨基酸库可以随之扩大——生命完全有能力做到这一点。

遗传密码——碱基的数量与类型、决定氨基酸编码的密码子表、氨基酸本身,这三者显然都是有限定的、非随机的选择。但是,可能这些非随机性都不重要,只要有20种不同的氨基酸,我们就拥有了无穷的创造潜力。假设我们有一个由300个氨基酸组成的蛋白质,链中的每个氨基酸都有20种可能,当我们考虑整个蛋白质时,整个分子的氨基酸排列一共有2×10390种不同的可能性!这个数字已经大到超过了宇宙中所有已知的恒星数目。也就是说,仅凭有限的氨基酸,生命就有无限的可能性,可以尝试各种多样而奇异、毫无限制的设计。当然,氨基酸链最终还会折叠形成一个分子,分子的折叠同样充满偶然性。如此程度的多样性是否能让生命摆脱物理极限的束缚,翱翔在可能性无限的分子世界里?

当生化学家们最初开始研究这些迷人的蛋白质时,这些庞大的数字令人望而生畏。哪怕一个仅由300个氨基酸构成的蛋白质都有2×10390种不同的序列可能,如果一个一个研究,恐怕要好几个世纪才能弄清现实世界中存在的所有蛋白质分子。不过,当人们解析出真正的蛋白质分子,读取了氨基酸序列、研究了折叠规律后,人们发现,显然无论氨基酸排列如何,蛋白质中真正能够折叠成型的结构是非常有限的。[24]

若是将蛋白质拆解为小单元,我们将会发现蛋白质折叠的基本结构非常有限。螺旋(被称为α–螺旋)[25]是一种右手螺旋结构,每3~4个氨基酸组成一层螺旋,竖直方向上每个氨基酸氨基上的氢原子与邻层螺旋氨基酸中的氧原子形成氢键。折叠结构往往被称作β–折叠,由氨基酸长链通过氢键折叠形成片状结构。

这两种结构可以随意串联组合形成各种不同的结构。许多蛋白质都是由α–螺旋和β–折叠组成的,不同的氨基酸排列形成了各种各样的结构组合。在一些特殊的蛋白质中,这两种折叠结构有序地成组出现,人们将这些特定组合的亚结构重新命名,如磷酸丙糖异构酶折叠桶、三明治结构或卷筒结构。细节不考虑,但是我们要记住蛋白质的折叠结构是有限的。

是什么导致了这种有限的选择?一个解释是,可能在生命早期,当生命发现几种折叠就已经足以组装所有一切时,它就不再有演化出更多形式的动力,而有限的折叠方式就被一直保留了下来。打个比方,就像在盖房子时,我们并不会用到建材商店里所有种类的砖,我们只会选择几种,就把房子盖好了。生命也是如此,在我们遥远的祖先选定了几种折叠模式后,它们的后代就将这些选择继承了下去。

尽管这种说法看上去似乎很有说服力,但其实有更为基础的原理选择了蛋白质的排列折叠方式。氨基酸链通过折叠达到低能量态,即折叠由热力学原理驱动,帮助蛋白质形成更稳定的状态。每个部分的折叠并不是独立的,各个区域的折叠之间互相影响,而折叠完毕后的终产物一定是热力学意义上最稳定的结构。[26]由此,折叠方式一定只有少数。无规则的氨基酸折叠形成有序的蛋白质,这是否违反了热力学定律?答案是没有。在氨基酸连接成链的同时,水分子从结构中被挤出,进入外界混乱的水环境,如果将溶液与蛋白质视为一个整体,整个系统的混乱程度并没有减少。

尽管有时候生物学与物理学之间看起来有天壤之别,但在这里,我们再次看到了两者之间美丽的协同。有些人可能觉得生物学原理具有极为矛盾的特质,一方面,有些原理十分简单,能够用于预测,而另一方面,演化的达尔文视角又不存在任何预先决定的定律,生命在广阔的可能性里变化并被选择。不过实际上,这两种特点不仅兼容,而且不可分离。在达尔文的进化论中,基因突变与自然选择确实能够造就无穷的可能性,但是这些可能性依旧需要符合物理学定律,在任何尺度都严格受到普适原理的制约。[27]以蛋白质为例,达尔文观点的演化能够产生功能多样、结构各异的各种蛋白质,再通过自然选择筛选出最适宜的蛋白质。但是,热力学定律严格地限定了可选的蛋白质折叠方式,大大减少了最后能够成型参与筛选的蛋白质数量。

遗传密码及翻译系统让无数科学家为之着迷。有些人钟情于DNA,有些人沉醉于蛋白质,还有一些人在早期地球奇幻的生物界流连忘返——也许在那时,RNA才是主导生命与化学反应的物质基础。还有一些人在整个生物化学的学科内遨游,并不局限于哪个课题。在过去的几十年里,无论是哪个研究对象,生物科学的研究者们都正在逐渐摆脱偶然性,为之前被视作奇迹的许多生命机制找到了合理的、非偶然性的解释。生命曾被认为同时具有分子上的复杂性与功能上的简洁性,许多机制看上去都像是生命偶然选择的结果,但实则物理与化学原理的限制已经为它们铺设了一定的路障,只有特定的几种方向可供选择。如今,借助强大的计算机模拟,我们可以比较各种可能性,揭开笼罩于选择航道上的迷雾,看清生命选择的真正原因。

赞(0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址