英国于2012年12月已经宣布了十万人的测序计划,要在3~5年内,对十万名患有癌症和罕见病的英国病人进行全基因组测序。英国首相戴维·卡梅伦谈道:“这项协议将让英国在未来几年内在遗传研究领域引领世界。我决心尽我所能来支持医疗和科学界来开启DNA之门,将重要的科学突破转化为为患者带来更好的检测方式、更好的药物,及更好治疗方式。”“随着我们的计划成为现实,我相信我们将能够改变NHS以及世界各地的严重疾病的诊断和治疗方式,同时支持我们最优秀的科学家和生命科学企业,发现下一个灵药或突破性技术。”
美国不甘落后于英国的“十万基因组计划”,用“百万基因组计划”来保障自己国家的领先地位。2015年1月下旬,美国总统奥巴马在国情咨文演讲中宣布了精准医疗计划(Precision Medicine Initiative)”。奥巴马说,“精确医学”所要做的是,把按基因匹配癌症疗法变得像输血匹配血型那样标准化,把找出正确的用药剂量变得像测量体温那样简单,总之,“每次都给恰当的人在恰当的时间使用恰当的疗法”。
据最新一期《科学》杂志报道,美国总统奥巴马将在任期内正式启动百万人基因组的测序计划。路透社报道,这项计划的核心在于创建一个囊括各个年龄阶层、各种身体状况的男女志愿者库,研究遗传性变异对人体健康和疾病形成产生的影响。美国国家卫生研究院院长弗朗西斯·科林斯1月29日在新闻发布会上告诉媒体记者,“精准医学”项目的短期目标是为癌症找到更多更好的治疗手段,长期目标则是为实现多种疾病的个性化治疗提供有价值的信息。
近日这项举措就已经提上议程,奥巴马正在向国会提议斥资2.15亿进行美国100万人的基因组测序作为全面加速生物医学研发计划的一部分,用以助力开发新一代的药物。奥巴马政府邀请部分大药厂的高管们在白宫内讨论下一个财年的财政预算,与会者中的高管们来自默克公司(股票代码:MRK)、再生医学公司(股票代码:REGN)、刚刚被罗氏收购的Foundation Medicine(股票代码:FMI)、Vertex Pharmaceuticals (股票代码:VRTX)等。
以下是这项资金的分配情况:
1、1亿3000万美金分配给NIH(美国国立卫生研究院),用于首批志愿者的招募和测序;
2、7000万美金分配给NIH的癌症研究所,用于解码肿瘤基因及助力开发新的疗法;
3、1000万美金分配给FDA,在需要协调“精准医疗”项目时,允许其引进的相关的技术和专家;
4、500万美金分配给国家协调委员会卫生信息技术部(the Office of the National Coordinator for Health Information Technology)用来那些建立相关标准,致力于保障精准医疗的先行者(患者)的健康隐私和数据信息安全。
这项计划会对社会起到很大的作用。首先,人们会对精准医疗领域投入更多关注和资金,而这对生命的活力和长度而言具有极大的利处。经验丰富的临床医生将解读基因分析结果,从而使人们能从细胞和基因层面了解自己的独一无二。其次,扩展精准医疗的可用性将对家庭医生、医学系统、医保公司等医疗卫生系统组成部分造成影响。一旦精准医疗得到了大众认可,医疗卫生服务消费者(尤其是婴儿潮出生的一代人)会希望能在更大程度上掌握自己的健康状况。
百万基因组计划主要针对成年人。同时,美国国家卫生研究院宣布,将在未来5年总共投入2500万美元,用于资助研究为新生儿进行基因组测序的前景与伦理挑战,使基因组测序技术向大规模应用迈出重要一步。美国国家卫生研究院下属国家儿童健康与人类发育研究所所长艾伦·古特马赫当天在一份声明中说:“基因组测序能在婴儿生命之初就发现疾病风险,但这种破译个人遗传密码的能力也伴随许多临床与伦理问题,因此探讨与新生儿阶段有关的基因组研究技术、临床与伦理这三重问题至关重要。”
基因组学到精准医学
基因组学应属于分子生物学范畴,其学科的起点是1953年沃森(James Watson)和克里克(Francis Crick)在《自然》(Nature)上发表的发现DNA双螺旋结构的科学论文。随着DNA双螺旋结构的解析,自七十年代起,生物化学家们发明了一系列的重要分子生物学技术,包括DNA测序、寡聚核苷酸合成、DNA杂交、分子克隆、聚合酶链式反应(PCR)等。尤其是80年代初荧光标记法DNA测序仪的研发和接近问世。
1983年和1984年美国NIH(国立卫生研究院)和DOE(能源部)分别组织了相关领域的科学家进行了启动大规模测序计划可能性的研讨,1987年人类基因组计划(The Human Genome Project,HGP)的智库发表了《测定和绘制人类基因组图谱》的报告。1988年美国国会通过了DOE和NIH关于启动HGP的申请,两家主要资助者也协议共同支持HGP。五年后,人类基因组遗传图谱制作完成,第一代荧光自动测序仪顺利问世,HGP则进入真正的规模化数据获取阶段。国际“人类基因组计划”联合体最终由美、英、法、德、日、中六国逾千名科学家的实际参与,用时十五年,耗资十数亿美元共同完成。
人类基因组计划是一个预计斥资30亿美元的大科学项目,在三十年后的今天来看也是个不小的数字。不仅可以与1939年美国斥资20亿美元制造原子弹的曼哈顿计划媲美,也可以与斥资254亿美元的阿波罗登月计划争艳。据最新估计,人类基因组计划所创造的经济效益已经达到一万亿美元。更重要的是,它的未来价值体现还在不断继续。2011年美国基因组学与生物医学界的智库又发表了《迈向精准医学:建立生物医学与疾病新分类学的知识网络》,宣示运用生物医学和临床医学研究的交汇,来编织新的知识网络。《报告》直接建议“百万美国人基因组计划”、“糖尿病代谢组计划”等。
高通量测序及技术
2004年人类基因组计划完成以后,科学家发现单单完成一个人的基因组序列还远远不足以理解人类自身及疾病的机理。由于有了已经完成的人类基因组当做参考基因组,采用廉价、快速的方法对多个样本、群体、病种基因组的比对测序就能提供大量有价值的科研和临床信息。这就要求测序价格足够低、速度足够快,然而对测序结果是否易于拼接、组装基因组则没有明确需求。于是,美国国家基因组研究院(NHGRI)提出了把全基因组测序降至1000美金的研究规划,从而引领科学界、企业界大力发展测序技术。
高通量测序技术(High-throughput sequencing)是基因组学研究领域一个具有里程碑意义的事件,该技术使得核酸测序的单碱基成本与第一代测序技术相比急剧下降,其以能一次并行对几十万到几百万条DNA分子进行序列测定等为标志,也被称为深度测序(deepsequencing)技术。根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively Parallel Signature Sequencing, MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454 pyrosequencing)、Illumina (Solexa) sequencing、ABI SOLiD sequencing、离子半导体测序(Ion semiconductor sequencing)、DNA 纳米球测序 (DNA nanoball sequencing)等。
2005年,454公司首先推出了二代测序仪;2006年,Solexa推出了Genome Analyzer,2007年年初Illumina收购了Solexa公司,在随后的几年陆续推出了Hiseq2000、MiSeq、Hiseq2500、MiseqDx、NextSeq 500测序仪,占据了高通量测序的大部分市场。ABI也在2007年推出的是SOLiD测序平台,随后收购了454测序仪发明者创立的Ion Torrent,转而大力推广PGM和Ion Proton平台。2014年,也就是高通量测序技术发展的第十年,illumina公司的Hiseq X平台已经实现了1000美金一个人类基因组测序的目标。2013年9月,illumina公司的MiseqDx平台,首次通过了美国FDA的技术认证,作为开放平台和囊纤维化的试剂产品准许进入临床,标志着经过10年的发展,高通量测序技术已从纯科学研究的平台进入临床诊断领域。
大数据科学诞生
DNA测序技术迅速发展,使得人类已知的DNA核酸序列不断增长。高通量测序技术则不断产出海量数据,直接导致了大数据科学(Big Data)的诞生。今天,人类DNA序列已经存储在数据库中,任何人都可以通过互联网下载。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank (http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html),欧洲分子生物学实验室的EMBL-Bank(简称EMBL,http://www.ebi.ac.uk/embl/index.html),日本遗传研究所的DDBJ (http://www.ddbj.nig.ac.jp/)。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。NCBI基因组数据库Entrez Gonomes (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)收集的基因组数据量非常大,至 2004年,该数据库包括1000多个病毒基因组、100多个微生物基因组以及部分真核生物基因组。Ensembl (http://www.ensembl.org/)是由EMBL-EBI和Sanger研究所共同开发的一个系统。Ensembl试图跟踪基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的DNA序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。Ensembl所用的基因预测程序为GenScan。
高通量测序技术又称Next-Gen sequencing(NGS),和现在正在发展的3rd-gen sequencing将会在生物学研究中被越来越广泛应用。按照library preparation来分,NGS主要有DNA-seq和RNA-seq。从bioinformatics的角度来说,DNA-seq相对比较容易处理,简单的说,第一步先做alignment,就是把millions of short reads from the sequencer map back to the genome。很多genome已经有相对完整的reference,这些genome的whole sequence可以从UCSC genome browser(http://genome.ucsc.edu/)下载。先前已经有朋友贴过现有的alignment tools( http://en.wikipedia.org/wiki/List_of_sequence_alignment_software#Short-Read_Sequence_Alignment),目前比较常用的有bowtie,bwa,maq,soap,从他们各自的网站,应该都可以下载到executable binary或者source code。比较常用的是bowtie( http://bowtie-bio.sourceforge.net/index.shtml )和bwa( http://bio-bwa.sourceforge.net/),简单方便速度快(paralyzed);output files例如SAM,BAM format比较standardized,方便后续处理;他们的网站有非常详细的manual。
如果是做ChIP-seq,通常第二步是call peaks。TF的peak一般比较peaky,MACS(http://liulab.dfci.harvard.edu/MACS/00README.html)是个不错的peak caller, 或用GREAT(http://great.stanford.edu/) to assign genes。 meme(http://meme.sdsc.edu/meme/intro.html)是个不错的motif caller。整体来说,对于ChIP-seq,可以利用open source tool自己整workflow;可以利用galaxy(http://main.g2.bx.psu.edu/)已有的workflow 和file tools(上面也有详细的tutorial);也可以用Partek Genomic Suite (not free,licence required)。后两个适合bench worker使用,非常容易上手。Exon-seq and whole-DNA-seq第一步alignment几乎没有什么区别,找genetic variation, SeqGene(http://sourceforge.net/apps/mediawiki/seqgene/index.php?title=SeqGene)是一个比较简单且实用的tool。
RNA-seq通常又被称为transcriptome sequencing。从bioiformatics的角度讲,与DNA-seq相比,RNA-seq要稍微复杂一些,当然也更有意思。主要需要处理的就是alternative splicing。Tophat( http://tophat.cbcb.umd.edu/)是目前比较流行的RNA-seq aligner。其部分也是基于bowtie,只对bowtie unalignable reads处理的时候,才去考虑splicing。后续对transciptome的prediction,scripture(http://www.broadinstitute.org/software/scripture/)和cufflinks(http://cufflinks.cbcb.umd.edu/manual.html)都是比较常用的reference based transcriptome assembler. 他们的主要作用就是把tophat align好的reads(当然也包括tophat predicted splicing junctions)组装成transcriptome。对于microarry的分析,DESeq(R package)和next-gen SAM algorithm是比较好的tool,好像他们都是用了quantile normalization(就是除去两头,用中间的50%做normalization)。信号的visulazation对很多ongoing project有非常重要的意义,有的甚至可以改变问题的问法,一般都用UCSC genome browser。
高新科技支撑点
基因组研究产生了大量的信息,海量信息的分析、加工和利用,促进了生物信息学的诞生和发展。生物信息学不但集中了许多国家政府的投入,而且吸引了全世界不同学科的精英,包括数学、物理、化学、计算机、材料等,同时也推动了生物芯片技术的研究和开发。基因是新兴生物制药业的源头生长点,以基因组为对象的新技术新方法的拓展、基因结构及其功能的阐明,将是21世纪生物高技术企业开发新产品的基础,发现和鉴定具有重要功能蛋白的基因,可为新药的开发带来决定性的影响。因此,世界上各大制药公司都在积极地进行组合、或与新兴的生物技术公司建立新的联盟,投入巨资开展人类基因组功能研究及其开发,抢占新药的筛选和研制阵地。
许多专家将21世纪称为生命科学的世纪,现代应用生物技术产业也必将成为21世纪的朝阳产业。生物工程之所以成为高端技术,不仅因为其涉及农业、医药、卫生、食品等多方面的产业群,将产生巨大产值带动整个国民经济的发展,更重要的是因为当今人类面临的许多难题的解决途径非现代生物技术莫属,生物工程将引领人类生活一次革命变革。据估计,再过20-30年,生物经济可能进入成熟阶段,并将取代目前的信息经济。到那时,生物技术产业将会是领头的产业,生物技术会影响到经济结构、生活方式和社会的各个主要方面。未来科技和产业革命的方向不会仅仅依赖于一两类学科或某类单一技术,而应该是多学科、多技术领域的高度交叉和深度融合。专家学者的一个共识是,新能源、生物技术、信息技术、新材料技术等的交叉和融合将引发新一轮的科技革命和产业革命。
综合全球各国经济格局与产业特点分析,全球基本分裂为三大类国家,第一类是技术型国家,美、德、日、英都曾在前三次产业革命中崛起过,掌握着相关行业的领先技术专利,处在产业链的最上端属于控制者;第二类是资源型国家,典型的是石油资源,全球石油大部分集中(东半球)中东如伊朗、沙特、伊拉克、科威特等国家,它们处在产业链的中上游,属于资源霸主;第三类是制造销售型国家,尤其是中国、印度等发展中国家,是处在产业链的中下游,属于两头受压的地位,受到经济波动的冲击也是最大的。在新一轮生物信息产业革命中,由于中共对社会各方面特别是思想意识形态的严厉控制,中国的科技领域缺乏原生创造力,会被远远抛在一类国家的后面。