国际瞩目
早在1980年,著名未来学家托夫勒在《第三次浪潮》一书中,将大数据(Big Data)热情地赞颂为“第三次浪潮的华彩乐章”。不过大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。目前,大数据成为继云计算、物联网之后IT行业又一大颠覆性的技术革命。近年来,大数据的概念在顶级科学杂志上频频出现。概括来看,大数据包括三层含义(3V):数据量大(volume of data),处理数据的速度快(velocity of processing the data),数据源多变(variability of data sources)。大数据,又称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。各类海量资料的整合分析,能够帮助评估现状,预测趋势。专家认为,海量数据的剧增,势必让量变引起质变,大数据带来了全新的研究思维和方式。将网络化的大数据作为分析对象,接受数据的多样性和不精确,更强调相关性而非因果性,更强调深度分析和间接分析,这些特点使大数据具备了作为一种新的科研范式的基本特征。大数据被认为是改变行业的关键节点。世界正在由资本经济时代向数据经济时代过渡,数据及其服务成为国家战略和经济的基础设施。
大数据科学与产业具有较强的领域相关性,生物大数据已经成为欧美国家重要的发展战略,也是美国国家大数据计划的重要组成部分。2009年,美国出台HITECH法案,将医疗卫生信息化列为重点发展方向,十年内累计投入2760亿美元。2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”,将大数据提升到了国家战略层面,承诺将投资两亿多美元。2014年,美国政府就如何充分利用生物医学大数据,又启动了Big Data to Knowledge计划。美国国立卫生研究院(NIH)近日宣布投资3200万美元推动研究人员开发分析和使用生物学大数据库的方法。该奖项出自NIH去年启动的大数据知识(BD2K)创新计划。NIH院长Francis Collins表示,这些奖金将资助开发计算工具、软件、标准和方法,用于分享和使用大数据集。OpenFDA(开放FDA)计划就是FDA使其拥有的大量数据让软件开发者、科学工作者能够更方便地利用所做出的最新努力。此次FDA对公众开放其数据是基于美国总统的行政命令和美国卫生部的数据开放计划。2014年2月,中国生物技术发展中心发布《国家高技术研究发展计划(863计划)生物和医药技术领域2015年度项目申报指南》,其中大数据、生物质、单细胞测序等成为重点关注的方向。
对于生物医学来说,其发展过程中积淀的数据资源,是大数据时代的基础之一。特别是高通量测序技术的快速发展,使生命科学研究获得了前所未有的数据生产能力。上世纪90年代,科学家花费10年时间、近30亿美元获得了第一个人类基因组图谱;而今天,完成一个个人基因组测序不到一天时间,费用低于1000美元。自人类基因组计划完成以来,以美国为代表,世界主要发达国家纷纷启动了生命科学基础研究计划,如国际千人基因组计划、DNA百科全书计划、英国十万人基因组计划等。这些计划引领生物数据呈爆炸式增长,目前每年全球产生的生物数据总量已达EB级,生命科学领域正在爆发一次数据革命,生命科学某种程度上已经成为大数据科学。随着测序技术在医疗、健康、医药、环境、能源等相关领域的广泛应用,人类将面临生物数据的海洋,其将成为这些领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。
美国乔治华盛顿大学的计算生物学研究所主任Keith Crandall表示,尽管生物学家花费大量精力收集数据,实际上,现在生物学面临的瓶颈在于大数据。在有效利用生物医学大数据方面,首要的挑战就是要确定卫生保健信息的潜在来源是什么,以及确定将这些数据连接起来之后所带来的价值如何。将数据集按照“大小”从不同的方面进行条理化,这个大数据就会提供解决问题的潜在方案。一些大数据,如电子健康记录(EHRs),提供详尽资料,包括病人接受诊断时的多种资料(如:图片、诊断记录等)。尽管如此,其他大数据,如保险理赔数据,提供纵深资料——顾及病人在很长一段时间里、在某个狭窄的疾病类型范围内所经历的病史。当连接数据有助于填补空白的时候,这些大数据才会增加价值。只有记住这些,才能更容易明白如何将卫生保健系统之外非传统来源的生物医学数据融入这些情况之中。尽管数据的质量有所不同,但社会媒体、信用卡购物、人口普查记录以及大量其他类型的数据,都会有助于收集一个病人的历史资料,特别是有助于揭示可能对健康产生影响的社会因素和环境因素。
商机勃勃
专家认为,大数据正在深刻影响生物医学。按照麦肯锡报告的预测,中国医疗领域利用大数据每年将节省医疗费用近2000亿元。根据美国BCC research公司研究显示,仅就与高通量测序相关的组学大数据而言,至2018年,其市场总额将增长至76亿美元,复合年增长率达到71%。麦肯锡全球研究院报告,如果美国医疗保健行业对大数据进行有效利用,就能把成本降低8%左右,从而每年创造出超过3000亿美元的产值。BCC报告指出:“至2018年,生物大数据的市场总额将增长至76亿美元,年复合增长率达到71.6%。”对大数据的挖掘和分析是应用的焦点,资本力量也开始了新一轮布局。行业专家人士透露,2014年以来,互联网医疗健康主要并购投资对象集中在互联网、移动设备、传感器、大数据上,未来资本对大数据的争夺战将甚嚣尘上。据统计,近两年来,各类资本对医疗产业领域的投资开始有意识地“拥抱”互联网基因,对软硬件结合的投资占互联网医疗总投资的38%,对移动医疗的投资占19%,最终目标还是健康大数据终端的占领。
在商业领域,生物大数据的应用市场如雨后春笋,目前,一些公司已开始提供生物大数据服务。例如,谷歌投资DNANexus公司,提供生物大数据管理和分析服务,并于2011年接管NCBI数据;早在2006年,23AndMe公司就开始提供个人基因组数据分析服务;英国卫生部于2013年专门建立了Gel公司,管理和分析英国十万人基因组计划产生的基因组数据;亚马逊通过其云平台托管国际千人基因组计划庞大数据库,并免费开放;微软也启动了microsoft biology initiative项目,进军生物医学大数据领域。IBM曾联合约翰霍普金斯大学和加州大学打造了一款名为Spatio Temporal Epidemiological Modeler (STEM)来试图解决这一问题。最近IBM宣布将在原有版本的基础上升级STEM以适应新的需要。STEM能够整合来自不同来源的数据和病理模型供研究者或者医生使用。
典型案例就是同斯坦福大学的潘德实验室(Pande Lab)合作的谷歌研究(Google Research),它发表了一篇题为“针对药物研发的大规模多任务网络”的文章。这篇文章主要研究如何使用不同来源的数据,更好地甄别判断出哪些化合物可以作为“有效治理人类顽疾的药物”。文章阐明了如何利用深度学习来处理巨大繁复的数据库,并将有效的数据集合起来,筛选出切实有效的药物成分,从而加快药物研发。最近谷歌公司又聘请了7位牛津大学学者来帮助其开发DeepMind人工智能系统。人工智能领域有四位知名的学者,原本都在学术界的,现在三位已经被企业重金聘走了,这其中包括神经网络先驱Geoffrey Hinton和Andrew Ng。这些学者之所以为企业所看重,是因为将他们的技术应用于产品,确实取得了巨大的成功。一方面是数据的爆发式增长,一方面是机器资源和数据处理能力的提高,其最终结果是产生了机器学习和数据分析的黄金时代。
技术尖端
专家认为,生物医学大数据开发与利用,应重点突破生物大数据质量控制、集成融合、索引组织、存储管理、搜索访问、数据可视化、分析建模、知识库构建等关键技术。不断变化的大数据使建模仿真需要面对和处理的问题越来越多。一是对仿真基本理论。仿真范式是基于模型的, 以还原论和因果关系为基础,对目标、边界、实体、属性、状态、约束等进行了预定义,因此难以满足处理来自互联网的人类社会活动大数据的需求,难以解决无组织的大世界问题。二是对建模方法。大数据提供了利用“数据模型”的新途径,可以通过建立起认识问题的“数据模型”, 解决因复杂度高、计算量大、难以建立可行模型的复杂问题,并催生出新类型的模型。三是在仿真工程与科学方面,需要发展仿真范式, 实现密集计算与密集数据的集成, 以实现无组织的复杂的系统的因果规律的发现。为适应生物医学大数据的发展,应在生物医学领域加强计算机科学、数据库专业人员的培养,加强流行病学、统计分析、信息学人员、标本库管理人员的培养。数据科学是一个多学科融合的交叉学科;数据科学是以数据为研究对象,以信息论、统计学、数据理论、数学分析等理论为研究手段,以获取海量数据中蕴含的知识为目标的一门学科,从事大数据研究势必应该是复合型人才。
Marc Bloch在他的名著《the historian's craft》里把历史研究分为三个步骤:(1)历史的考证,(2)历史的分析,(3)历史的因果。对应数据分析就是(1)数据的考证data validation,(2)数据的分析data analysis,(3)数据的因果data evaluation。其中最后一步是大老板们干的事情,就是基于分析结果给出主观的价值判断以及下一步决策。这一步其实在大数据时代几乎没有变化,大老板们的信息来源依旧是几张图表。很多人觉得大数据时代最大的变化是在data analysis这步:以前可以用R,现在必须用Mapreduce,以前可以用sql,现在必须用NoSql,等等。但是如果有完善的infrastructure,写Mapreduce code并不比写R code(或者python)复杂多少。其实最大的变化是第一步:现在所有的数据采集都是server自动完成log,里面有大量无意义不可懂的东西,以及各种spam。不把这些做清理,第二步data analysis的结果就根本不可靠。而要做好data validation,你不但要对log的设计,同时client side和server side的方方面面都比较了解才能做好。数据科学家(Data Scientist)应该至少能够自己独立做出一个产品的原型,最少要会的语言是:Python/R,SQL,Java/C++,Javascript,Bash。
从技术角度来说,整个数据分析流程要用的软件平台主要包括以下四大方面:1。Data architecture:Hadoop,HBase/Cassandra,Pig,现在流行的是Hadoop 2.0,Impala,Shark/Spark,Druid,Storm;2。Data base:MySQL, Postgresql ,现在流行的是NoSQL;3。Data analyzing:machine learning, data mining,现在流行的是deep learning;4. Data visualization: web frameworks and front-end show-offs,现在流行的是MEAN (Node, Angular), vert x,Go,SPA。一般有两套工作流程,python的scipy和java的hadoop。用python直接上scipy和numpy,虽然运行很慢,但是写起来来快,适合快速建模;用hadoop直接上java,java的优点是可以大量重用代码,以造可复用的轮子为主要目的,测试无问题后下放生产。目前很多企业目前的大数据框架是,一方面以Hadoop2.0之上的Hive、Pig框架处理底层的数据加工和处理,把按照业务逻辑处理完的数据直接送入到应用数据库中;另一方面以Storm流处理引擎处理实时的数据,根据业务营销的规则触发相应的营销场景。同时,用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。可见,大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(Online Analytical System),还没有进入真正的交易系统OLTP(Online Transaction system)。
隐私保护
大数据时代最重要的挑战,是对用户隐私的挑战。大数据中心的可靠性和隐私保护是其中的关键。数据中心崩溃的风险,可以通过在不同地域、不同条件下进行生物大数据存储,再进行协同整合来解决。但在生物大数据的分析应用中,需要收集一切已知的生物信息,这与隐私保护存在冲突。牛津大学曼斯菲尔德学院研究员、英国皇家工程院研究员David Clifton表示,当前许多科学家无法从国际上的大型数据库获得关键科研数据,主要是基于隐私原则,尤其是涉及病人信息的关键数据,限制更为严格。“科学家的使命,是在保证医疗技术发展的同时,也能保证人们的隐私权利。” 据David Clifton介绍,其所在的牛津大学开展相关健康研究项目时,会将信息存放在数据库中,并有强大的防火墙以保证数据的安全。同时,要经过医院许可才能开展研究项目,医院给予许可时也要求科研人员不能分享病人的数据信息。“因为不能分享数据,所有数据要自己搜集,所以医疗科学研究成本很高。但是,这是科学研究中不可避免的,只有病人充分信赖我们,我们才能更好地发展技术。”David Clifton说。