爱爱小说网 > 其他电子书 > 030616人类基因组计划-陈竺 >

第2章

030616人类基因组计划-陈竺-第2章

小说: 030616人类基因组计划-陈竺 字数: 每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



序计划。当然我们承担的是1%的任务,1%还是很重要的。因为对于一个发展中的国家来说,能够挤入到这种属于发达国家的俱乐部里面,应该说还是很不容易的。有些事情我们想挤也不一定挤得进去的,像空间站的计划,人家还防范你。

  在这里我想介绍一下什么叫工作框架图?因为都在说工作框架图,什么叫工作框架图?其实就是一个工作草图。那么它的意思呢?就是说通过对染色体位置明确的BAC(细菌人工染色体)连续克隆系4—5倍覆盖率的测序,获得基因组90%以上的基因序列,其错误率应该低于1%。也就是说你的覆盖面要达到基因组的90%以上。第二个呢,错误率应该低于1%。100个碱基对立面允许你有一个以下的碱基对的错误。虽然这只是一张草图,但是它已经有用途,就是对基因组结构的基本认识,基因的识别和解析、疾病基因的定位克隆、单个核苷酸的多态性的发现等。

  那么讲到草图就一定有一个最终完成图了,所以这张图的定义,要求测序所用的克隆能忠实地代表常染色质的基因组结构,覆盖率要达到99。9%以上,然后序列的错误率应该低于万分之一。与工作框架图的关系呢,实际上就是在工作框架图的基础上再加大测序的覆盖率,填补空隙,使得序列的精度增加,能够达到这样一个标准。也就是说,它是草图的下一步。2000年6月25号,当时的测序的情况是怎么样的呢?我们看当时在公共领域就是说各国政府支持的六各国家,美国、英国、德国、日本、法国、中国,六国政府支持的公共领域的计划,当时是覆盖了大概人类基因组的86。8%。其中包含一部分已经完成,就是我们刚才说的最终序列图这样标准的序列大概是20%多一点点,然后66%左右的序列处于所谓的工作草图这样的阶段。那么也可以说,还没有完成。因为我们说要达到90%以上,但是同时瑟拉尔他号称他的覆盖率已经超过了95%。当然他的覆盖率其实包括了所有的公共领域的这个贡献,再加上他的贡献,所以两者相加起来。我想我们应该相信大概90%以上的序列,都是被工作草图以上的这样一个序列的质量所覆盖着。我们看看公共领域测序计划当时的情况,在24条染色体上分布的情况。我们知道,实际上1999年12月份,22号染色体作为人类最小的染色体之一,它的全序列被测定,或者说是它的常染色体,指部分的全序列。我们注意到它的短臂这个地方,就是易染色体区域,实际上非常难测。因为都是大量的空序列,又没有多少基因。2000年4月份21号染色体全序列完成了,也是同样的定义,就是说常染色体的这个部分。我们看这里是用深红的颜色来表示,差不多就是最终完成的。而这种黄颜色表示的是我们刚才说的工作草图,在大部分染色体区域,是工作草图部分。实际上现在我们讲的,完成人类基因组全序列的测定,都是指的常染色体部分,所以有的人说也许人类基因组序列永远也不能被结束。

  2001年2月15日,我们知道公共领域在《自然》上,都是有一种分庭抗礼的,兵对兵、将对将的感觉。2月16号就登了瑟拉尔序列,显然,经过新的一轮角逐,比2000年6月份的时候,完成序列的质量又要高得很多。所以这样的话,应该认为,两家加在一起的信息,应该说比我刚才说的一般的定义又要进一步了。所以就产生了一个在工作草图和最终完成图之间的一个中间状态,这个中间状态就叫做高质量的草图。但是就是这样一个高质量的草图,让我们已经基本上知道我人体生命信息的家当到底有多大。弄到最后我们发现我们的家当好像还是比较可怜的,比我们原来的想像,因为我们的基因数量大概只有线虫,只有900多个细胞的一个生命体的大概一倍左右,我们就比那么一个小虫多一倍。从低等生物到高等生物它的基因组的复杂度,与其说是由基因的数量来决定的,还不如说更主要的是由基因的长度来决定的。我们最近完成了一个细菌的测序,叫钩端螺旋体,可以引起传染病的。它平均一个KB就有一个基因,这么小的一个东西,500万个碱基对的一个基因组,有5000个基因。我们人30亿个碱基对,我们不过就3万个,顶多接近4万个这样一个数字。但是你看到了酵母,到了真核细胞的话,那它就是平均大概5到10个KB一个基因。然后到了果蝇的话,虽然它的基因数量好像还没有线虫的多。但是它的基因长度已经达到10个KB以上,然后到了哺乳类一个基因,大概像人类现在是100多个KB才有一个基因。所以替换、剪接这种可能性就大大增加了。另外跟时间和空间,也就是发育阶段和组织特异性表达的调控相关这些序列复杂大大增加了。虽然基因在高等生物可以达到十的五次方数量级,几万到十万个这样的比较高等的生物。但是实际上它的蛋白质的结构域,实际上如果把基因组比成一个大厦的话,组成这个大厦的预制件,这个数量实际上是比较有限的。那么另外有一些高级生物中有更为丰富的结构域组合,神经功能、组织特异发育、调控、止血和免疫系统的基因,在脊椎动物大量扩展。数以百计的人类基因源于脊椎动物进化过程中某个时间点上,细菌基因的横向转移。基因组在不同个体之间差异很大——单核苷酸多态性,单倍体的基因差异为1/1250,能够导致蛋白质变异的不到1%。

  这本遗传天书,已经放在我们面前了,接下来就是要读懂它。要读懂它,一定要从大的系统的概念来考虑怎么样读懂。一个这个基因组的信息,和外界的环境,是在那里相互作用。另外这个基因组的信息不是从天上掉下来的,它是通过一个漫长的几十亿年进化的过程发展过来的,所以要用比较的方法去读它。另外要考虑到在个体之间和群体之间又是有变异的,这种变异也受到外界环境的一些调节。所以功能基因组学的研究内容,虽然现在没有一个严格的定义,但是我个人认为,至少包括这几个方面:人类基因组DNA序列变异性研究,其核心的内容是SNP,因为这是最常见的变异类型,当然还有很多其他的变异。然后基因组表达调控的研究,这个是发育阶段组织器官的变异,然后模式生物体的研究,这个里面包括进化的意思,和利用模式生物进行功能研究。当然从事所有这些研究,就像我们进行测序研究一样。生物信息学,它既是一个基本的工具,又是一个新兴的学科。因为最后要把这些信息整合起来,搞成一个我们所说的,系统生物学的话,你一定要用理论的手段,和大规模信息处理的手段。

  那么基因组DNA序列变异性的研究,SNP,这种变异类型实际上是所有基因组的共同特征。它在相当大的程度上决定了不同的个体群体,这个是指的人类在疾病的易感性,对环境致病因子反应性和其他性状上面的差别。

  在这里我举一个例子,说明这个性状有多么重要。我们就来看一看,我们对药物的反应性。我想我们每一个人、再健康的人,一生当中总要接触一些药物的。现在有一个新的提法叫药物遗传学,指的是大部分药物,在体内代谢的酶会有遗传多态性。像这里,一类是改变基团的一些酶,一类是对基团进行转移的一些酶。它都有很多的多态性,这种多态性的后果是什么呢?它在相当大的程度上决定了我们个体对药物的反应性。比方说这是一个很复杂的程序,但是我想我们主要的信息在这个地方。对于某一个药物来说,最适合它的基因型的,它的疗效可以达到75%,毒性只有1%。同样一个药,如果到了一个最不适合它的一个个体的情况是怎么样?它的疗效只有10%,毒性大于80%。那么基因组表达以及表达的调控的这个研究,这个我想都可以理解。那么指的是在全细胞的水平,如果是在单细胞的生命体是整个生命体的水平,识别基因组的所有转录表达的产物。实际上它是高通量的结构生物学,大批量解析蛋白质的高级结构,是连接基因组功能研究和新药开发研究的桥梁。然后为了在这样大的规模上,在整体水平上获得功能信息,需要一些所谓的并行化的分析手段。就是现在已经做得到在指甲盖大小的生物芯片上点上人类的基因组,所有的基因都点在上面。所以有人说将来要去看病不光要带病卡,还要带一个自己的芯片。医生用药诊断之前先把芯片插进去,看看你可能得什么病,说起来很好,也很吓人的。模式生物体的研究一般的说法大概从单细胞、第一个生命跟外界隔绝以后,到现在的万物之灵的人类,大概是14亿年的进化史。那么通过进化不同阶段的生物体基因组序列的比较,发现基因组结构组成和功能调节的规律。

  那么基因组计划,我刚才说一个是科学兴趣使然,科学家要探索人类的自身,另外也是社会驱动使然,就是说要战胜人类的疾病。所以最后它的价值的实现,我想还是应该回归到对人类的健康的贡献上面去。那么在这个意义上说,人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。我们看到过去的十年当中,由于人类基因组研究的带动,使得人类疾病相关性的研究有了长足的进步。单基因疾病由于定位克隆和定位候选克隆的新思路,导致了一大批遗传病基因的发现。我们知道传统的对基因的认识,是从表型到基因型。也就是你知道一个蛋白质,你测定了它的氨基酸的序列,然后根据密码址的原理,你推测它的DNA的序列可能是什么。你合成一个探针到基因组当中一调,把基因调出来。比方说血红蛋白病,这是第一个人类发现的分子病,它就是先知道了猪蛋白氨基酸的序列,然后再把它的基因调出来。但是绝大多数的人类疾病,我们不知道它的生化基础是什么东西,特别是在基因组计划之前。比方说像亨氏舞蹈病,我们就知道这个人会手舞足蹈,叫亨氏舞蹈病。比方说像遗传性的结肠癌,我们知道大肠部位大容易长息肉,但是我们不知道那个蛋白质出了问题。你怎么办?怎么来找到它的疾病基因?所以有了一个新的概念,叫反过来的遗传学,是什么呢?先去找它的基因,然后再去看它的表型。一旦拿到基因以后,很容易你马上可以推测它的蛋白质的结构。你可以产生抗体,你可以接下来做很多基因的功能。健康相关的研究是HGP的重要组成部分,1997年相继提出:肿瘤基因组的解剖计划,环境基因组计划。

  人类基因组计划对医学的贡献。基因诊断,基因治疗和基因组信息为基础的治疗,发展中国家和发达国家越来越重视疾病的预防,特别是基于基因组信息的疾病预防。我国一贯提倡的是预防为主。如果能够在一个人刚出生的时候进行疾病易感基因的识别,在早期把风险人群挑出来,然后在环境因子、生活方式上实施干预。生物技术发生了深刻的变化,更多地进入到细胞、胚胎和组织的研究水平上来,推动了胚胎和成年期干细胞技术的应用。血液病研究与其他先进学科结合十分深入,造血干细胞移植是干细胞研究在人类疾病治疗中应用最成功、最早的范例。

  我想基因组计划是离不开伦理学问题的,人类基因组DNA的序列是全人类的共同财富,应该造福于全人类。对基因组基础数据的垄断,将给人类利益和科学发展带来不良的后果。采集样品知情同意原则,抽取标本的用途、与工业界分享权益,成本应用:防止基因歧视。我们每一个人在一定的情况下都可能是弱智,所以反对基因歧视实际上是维护全人类每一个成员的共同利益。

  那么可能我前面讲得太多了,接下来我想简单的说两句,中国的人类基因组计划。我们的人口多,而且我们的遗传资源丰富,因为我们是多民族的群体。那么我们国家要发展自己的生物技术和制药工作,我们能够仅仅依赖国家的信息,所以我们国家的基因组计划是1994年正式启动,根据国际发展趋势和我国的实际情况从功能基因组的角度切入,充分发挥我国的人类基因资源优势,采取结构与功能并重,多学科交叉,建立关键技术,进行基因组多样性和疾病基因研究的策略。

  那么一开始我们是从群体遗传学角度切入,但是现在我们已经跨入到群体遗传学和医学的关系。那么我们可以很自豪地说:“现在大概除了Y染色体以上,所有的染色体上面都遍布着中国科学家发现和命名的基因”。那么最近我们启动了一个中华民族基因组SNP的大规模的研究,这个工作就是我讲的从群体遗传学转向了我们中国人群特点的疾病发生、发展的遗传学信息的研究。那么基因产物间的相互作用呢?它决定了基因组的遗传规律,功能复杂性和生物多样性。所以如果现在我们能够把中华民族生物元素变异的系统目录和数据库给它做出来的话,就能够获得我国生物医学界和制药工业界技术创新的知识产权,来造福子孙后代,来贡献于全人类。所以今天能够在水木清华,我们的校训是:“天行健,君子当自强不息”,这样我们国家的最高学府来和大家进行学术交流,来“鼓吹”人类基因组和蛋白质组,支持饶教授的结构基因组等等,那么我感到非常的荣幸。我想最后应该向为我国人类基因组学研究做出杰出贡献的所有前辈科学家、中青年专家、以及支持这一事业的领导,表示最衷心的感谢!

  谢谢大家!

返回目录 上一页 回到顶部 0 0

你可能喜欢的