生物质大数据_如何看待大数据基因的问题

『壹』大数据常见的应用场景有哪些

大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果，确切的说是移动互联网、物联网产生了海量的数据，大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。
对于大数据的应用场景，包括各行各业对大数据处理和分析的应用，最核心的还是用户需求。
一、医疗大数据看病更高效
除了较早前就开始利用大数据的互联网公司，医疗行业是让大数据分析最先发扬光大的传统行业之一。
二、生物大数据改良基因
当下，我们所说的生物大数据技术主要是指大数据技术在基因分析上的应用，通过大数据平台人类可以将自身和生物体基因分析的结果进行记录和存储，利用建立基于大数据技术的基因数据库。
三、金融大数据理财利器
大数据在金融行业的应用可以总结为以下五个方面：精准营销、风险管控、决策支持、效率提升、产品设计等。
四、零售大数据最懂消费者
零售行业大数据应用有两个层面，一个层面是零售行业可以了解客户消费喜好和趋势，进行商品的精准营销，降低营销成本。另一层面是依据客户购买产品，为客户提供可能购买的其它产品，扩大销售额，也属于精准营销范畴。另外零售行业可以通过大数据掌握未来消费趋势，有利于热销商品的进货管理和过季商品的处理。
五、电商大数据精准营销法宝
电商是最早利用大数据进行精准营销的行业，除了精准营销，电商可以依据客户消费习惯来提前为客户备货，并利用便利店作为货物中转点，在客户下单15分钟内将货物送上门，提高客户体验。
六、农牧大数据量化生产
大数据在农业应用主要是指依据未来商业需求的预测来进行农牧产品生产，降低菜贱伤农的概率。同时大数据的分析将会更见精确预测未来的天气气候，帮助农牧民做好自然灾害的预防工作。大数据同时也会帮助农民依据消费者消费习惯决定来增加哪些品种的种植，减少哪些品种农作物的生产，提高单位种植面积的产值，同时有助于快速销售农产品，完成资金回流。
七、交通大数据畅通出行
交通作为人类行为的重要组成和重要条件之一，对于大数据的感知也是最急迫的。
尽管现在已经基本实现了数字化，但是数字化和数据化还根本不是一回事，只是局部的提高了采集、存储和应用的效率，本质上并没有太大的改变。而大数据时代的到来必然带来破解难题的重大机遇。
八、教育大数据因材施教
随着技术的发展，信息技术已在教育领域有了越来越广泛的应用。考试、课堂、师生互动、校园设备使用、家校关系……只要技术达到的地方，各个环节都被数据包裹。在课堂上，数据不仅可以帮助改善教育教学，在重大教育决策制定和教育改革方面，大数据更有用武之地。
九、体育大数据夺冠精灵
大数据对于体育的改变可以说是方方面面，从运动员本身来讲，可穿戴设备收集的数据可以让自己更了解身体状况。媒体评论员，通过大数据提供的数据更好的解说比赛，分析比赛。数据已经通过大数据分析转化成了洞察力，为体育竞技中的胜利增加筹码，也为身处世界各地的体育爱好者随时随地观赏比赛提供了个性化的体验。尽管鲜有职业网球选手愿意公开承认自己利用大数据来制定比赛策划和战术，但几乎每一个球员都会在比赛前后使用大数据服务。
十、环保大数据对抗PM2.5
气象对社会的影响涉及到方方面面。传统上依赖气象的主要是农业、林业和水运等行业部门，而如今，气象俨然成为了二十一世纪社会发展的资源，并支持定制化服务满足各行各业用户需要。借助于大数据技术，天气预报的准确性和实效性将会大大提高，预报的及时性将会大大提升，同时对于重大自然灾害，例如龙卷风，通过大数据计算平台，人们将会更加精确地了解其运动轨迹和危害的等级，有利于帮助人们提高应对自然灾害的能力。
十一、食品大数据舌尖上的安全
大数据不仅能带来商业价值，亦能产生社会价值。随着信息技术的发展，食品监管也面临着众多的各种类型的海量数据，如何从中提取有效数据成为关键所在。可见，大数据管理是一项巨大挑战，一方面要及时提取数据以满足食品安全监管需求；另一方面需在数据的潜在价值与个人隐私之间进行平衡。相信大数据管理在食品监管方面的应用，可以为食品安全撑起一把有力的保护伞。
十二、调控和财政支出大数据令其有条不紊
政府利用大数据技术可以了解各地区的经济发展情况，各产业发展情况，消费支出和产品销售情况，依据数据分析结果，科学地制定宏观政策，平衡各产业发展，避免产能过剩，有效利用自然资源和社会资源，提高社会生产效率。
十三、舆情监控大数据
国家正在将大数据技术用于舆情监控，其收集到的数据除了解民众诉求，降低群体事件之外，还可以用于犯罪管理。

『贰』生物大数据是做什么的

生物大数据实际上也就是通过分析一些大数据应用与一些高端的生物技术，只有通过大数据的分析比如核酸基因库才能检测一些基因系列。

『叁』怎样从海量生物数据中产生大的可视图片

生命是如此的复杂，以至于几乎每一位生物学家都只能在一个很小的领域进行探索。尽管在每一个领域都产生了大量的描述性的数据。但是科学家能够从这些海量的数据中得出一个整体的概念，例如生物是如何运作的？系统生物学这门正在形成的学科为回答这些问题提供了一些希望。它试图把生物学的各个分支联系起来，利用数学、工程和计算机科学的方法让生物学更加量化。不过，现在还没有人知道这些方法是否能够最终让科学家理解生物运作的整体图景。

参与遗传信息加工的蛋白酶在早期的吸水过程中上升特别快，在萌发开始后的30小时达到最高点。这些结果为拟南芥种子萌发过程中的蛋白组学等研究提供了重要的物质基础。非编码序列，特别是内含子的起源，是一个重要的悬而未决的问题。

『肆』如何看待大数据基因的问题

21世纪初，人类基因组计划(HGP)发布了第一张人类基因草图，人的基因组约有30亿个碱基对，意味着每一个人的基因组有3Gb以上的数据。该计划曾与上世纪的曼哈顿计划(原子弹制造)、阿波罗登月计划并称为三大科学计划，为本世纪的一个里程碑式的科学工程。
15年过去了，基因组测序技术发展之快已经超乎人们的想象。十年前，这项技术还只是实验室中一个“迷人”但又昂贵的研究工具。现在，它却已经渐渐步入医疗界，成为一种略显“尖端”的诊断技术。该技术也引领生物医学领域进入大数据时代。
早前，曾有人预言，当个人基因组测序费用下降到1000美元时，就标志着我们的医学将进入个体化医疗(Personalized Medicine)的时代。现在，这个目标已基本达到，随着这项技术的迅猛发展和成本的扁平化，它已经开始给我们带来了庞大的数据，包括基因组、蛋白组等各类组学(omics)的出现，也带来了不少数据。
1. 海量数据的产生
刚过去的七八年间，我们储存的个人基因组数据量已达到106规模，这个数量如此惊人，且这只是刚刚开始。每年Illumina公司的HiSeq X 10测序仪已经可以完成超过18000人的基因组测序工作，该测序系统已分布在全球顶尖测序中心，每天产生大量的数据。英国2014年也启动了“十万人基因组计划”，美国和中国则宣布要完成多达一百万人的基因组数据收集工作。
基因测序数据正在以更快的速度翻倍。2015年以后，以历史累积的测序数据来看，每7个月就能翻一番， Illumina仪器测序所得的数据，每12个月就能翻一番；如果仅以摩尔定律来看，每18个月数据量就能翻一番。这种情况将带来一个巨大的“数据黑洞”。图片来自nature.com
以上所提及的，只是大数据时代下的一个缩影，现在面临的还有其他数据。比如，伴随基因组计划的发展，人类蛋白组计划和基因测序结果在医疗界的应用等也被逐步提出，它们也正在给大数据“添砖加瓦”。所谓人类蛋白组计划，主要目的在于研究所有人类基因编码产生的蛋白质。关于这个，我们来看一个研究者的故事。
美国斯坦福大学迈克尔?斯奈德(Michael Snyder)。
迈克尔·斯奈德(Michael Snyder)是美国斯坦福大学的一名分子遗传学家。当他抱着好奇的心态测了自己的基因组后，得到了一些“惊喜”。他发现，自己是一名II型糖尿病易感基因的携带者，尽管在这之前，他并没在自己身上发现任何此类疾病的风险因素，包括肥胖、家族病史等等。在接下来的14个月，斯奈德持续监控了自己体内相应RNA的活性和蛋白表达情况。在一次感染呼吸道病毒后，他发现自己体内的蛋白表达发生了变化，并且有相应的生物学通路被激活。接着，他被诊断出了糖尿病。看起来，这场病就是由这次病毒感染所触发的。此后，他还在患上莱姆关节炎时，也监控了自己体内的蛋白表达变化。这时，他的研究已经产生了多达50Gb的数据，这还仅仅只是关于他个人的研究数据。当他将这项研究扩展至100个人时，并将研究目标扩展至13类“组学”(包括蛋白组、肠道菌群的转录组等等)，而实际上，按照他的计划，要想真正做到预测疾病，还需要将研究对象增加至上百万个病人。如此这样，它将会带来多大的数据量？
各种电子设备的普及以及健康数据记录App的出现，给这个时代带来了海量的数据，也给医学界带来了可观的研究对象。过去的几十年间，医生如果要观察病人的心血管健康情况，往往会给他们做这么一个小测试：让他们在一段平缓、稳固的路上行走6分钟，并记录他们的行走距离。这个测试不仅可用于预测肺移植者的存活率，还可用于检测肌肉萎缩的病程发展，甚至可以评估心血管患者的健康状况。这种小测试已被运用于多项医疗研究中，但在过去，最大规模的医疗研究项目中，这种参与者也很少能达到一千人。
智能手机中健康类App的出现，从而能让研究者获取大量人群的数据。图片来自nature.com
不过，这个情况近年来发生了很大的变化。在2015年3月进行的一项心血管研究中，研究者尤安·阿什利(Euan Ashley)在两周时间内就拿到了6000个人的测试结果，这就得益于现在有数百万计的人拥有智能手机和健身追踪器。到了6月份，参与到这项研究中的人数达到了40000人，这仅仅依靠的是一款叫做“我的心脏计数”(My Health Counts，见上图)的苹果应用。有了这个应用软件，阿什利甚至可以招募来自全球的参与者，获取他们的测试结果。那样的话，他得到的数据又将是多少？面对这个现状，不少研究者表示，这些海量数据可能会淹没现有的分析渠道，并对数据存储提出前所未有的“高”要求。
2. “大数据”时代下的挑战
在群体基因组研究的浪潮下，虽然更多的人关注的仅仅只是整个基因组中的外显子部分，即基因组中可编码产生蛋白的部分，它占到了整个基因组的1-5%，这能够将需要分析的数据量减少到原来的1%。但即使在这种情况下，每年产出的数据量仍可达4000万Gb。这就带来了第一个难题，如何存储这么大的数据量？
尽管这还只是这个领域最基本的问题，仍需要巨大的资源来解决。这就是近年来网络上最常出现的一个词——云(Cloud)出现的契机所在。这么大的数据量，必然无法仅仅保存在固定的设备上，需要借助互联网来实现，也即是所谓的“云存储”。此外，这些数据带来的处理危机也是巨大的，电脑处理能力也将局限着它们的应用。这个问题的初步解决依然要依靠“云”，也就是现在所谓的“云计算”。
即使处理好了海量数据的存储问题，我们还将迎来另一个更让人头痛的问题——这些数据说明了什么？现在关于基因组学的临床研究，往往聚焦于识别个人基因组中可扰乱基因功能的“小错误”，即所谓单核苷酸突变(single-nucleotide variants, SNPs)，即使这些突变往往存在于仅占基因组1%的外显子区域，平均下来，依然有近13000个之多，而其中的2%已被预知可影响相应蛋白的变化，但要从中找出某类疾病的具体致病基因，仍是一个巨大的挑战。
自奥巴马提出了“精准医学”的概念，这个方向就一路红火。即使现在已经有了测序技术和分析工具这些手段，有了电子健康记录这位“好帮手”，这种医疗方法的理想和现实之间仍然有着巨大的鸿沟。在这个领域，仍然存在多种障碍。比如，即使在电子健康记录普及和新疗法研发成功的前提下，想要依靠临床医生来实现这些疗法，往往还需要对他们进行不间断的培训，以帮助他们在做医学决定前了解足够多的细节信息。
此外，电子健康记录的不可共享性(即涉及到病人隐私的问题)，为精准医疗的实现设置了不小的障碍。很多时候，治疗患者个体病例的特异性信息往往被患者个人和治疗机构所把持，到不了研究者手里，那么就无法据此信息来改进一些治疗方法，因此也就没办法实现对个人的“个体化医疗”。这些问题往往反映生物医学领域需要信息处理专家的介入和帮助。遗憾的是，生物信息学家在学术领域也仅仅只占很少的席位，更别提在医学领域，还需要给他们提供更多的职位和机会。
3. “大数据”带来的机遇
有挑战也必然会带来机遇，这个机遇可以体现在生物医学领域的多个方面，比如医疗界的诊断方法更新、疾病分型更新、医药界药物开发新方向、医学界疾病治疗新方法，甚至生物学科基础研究领域的新工具等等。
2013年，安吉丽娜·朱莉的故事轰动全球，为减少患上乳腺癌的风险，她进行了预防性的双乳腺切除术，而这个决定是在她检测到自身携带一种风险基因——BRCA基因后才做出的。这类基因能带来显著的致病风险，约有55-65%的乳腺癌患者携带有害的BRCA1基因突变，45%的携带BRCA2突变。对朱莉来说，虽然她携带的仅仅是前一个基因，已足以让她做出预防性手术的决定。这个故事给出了一个鲜活的例子，就是如何把个体测序得到的数据与临床诊断联系在一起，这就好像人类正在从自己的基因组中找到这些失落的宝藏，从而帮助自己预防一些恶性疾病，但这只是这个时代所带来的一个福利而已，并且只占到很少的一部分。
以糖尿病为例，不精确的疾病分型，对于前期的预防和后期的治疗都十分不利。之前，医学界已经知道，有多达百余种途径可能导致糖尿病的发生，涉及到胰腺、肝脏、肌肉、大脑甚至脂肪的不同变化。现代通过基因的研究发现，对不同类型糖尿病而言，其致病基因十分多样。这时，如果将这些不同亚型的糖尿病混为一谈，就会让人很难弄明白，为什么携带同样的基因突变，病人在面对同一治疗方案时，会出现完全不同的治疗效果。
正如生物化学家阿兰·阿蒂(Alan Attie)所说的那样，“从致病基因到体重、血糖水平等表型的出现这一过程，往往有许多步，其中每一步都可能发生基因突变，这最终会削弱基因和表型之间的联系”。因此，只看表型(即临床症状)和只看突变基因，得到的都只会是片面的结果。只有将两者有机结合起来，才能更加深我们对疾病的了解，做到更精确地进行疾病分型，以便更容易“对症下药”。
美国国立卫生研究院(NIH)曾发起一项大型项目，构建了癌症基因组数据库(the Cancer Genome Altas，简称TCGA)，将所有癌症相关基因突变分类保存，共保存有250万Gb的数据，这大大改进了研究者对各种类型癌症的认识。但仅仅这样，对于提供了组织样本的患者来说，并没给他们的临床经历带来太多改变。
与癌症治疗相关的另一方面，是个人电子健康记录及其病例的特异性信息。对很多研究者来说，如果能从医院或个人手中得到这部分信息，就能够卓有成效地进行癌症治疗方案的改进。总体而言，只有在拿到测序大数据的基础上，同时掌握病人的干预记录(来自个人的电子健康记录)和临床特征(来自医疗机构的临床病理记录)，才能最终做到“升级”肿瘤的临床治疗方案。
医药研发也能从大数据获益良多，这无可厚非。在医药研发的世界里，基因技术公司更倾向于进行长期的生物学研究，并将其联系到临床数据上，以使得药物能够“对症下药”到每个人身上，甚至会帮助制药公司做出更“大胆”的研发决定，进行个性化定制免疫疗法的研究。
以微生物菌群研究为例。现在就有人提出这样的想法：什么时候我们会想要研发出能改变体内微生物菌群的药物呢？这些存在于我们肠道、皮肤表面和环境中的数以十亿计的微生物，不仅影响我们是否患病，还会影响到药物对疾病所产生的药效。现在大部分对于微生物菌群研究得到的数据还只是针对小部分人群，但这是否也意味着一个不错的研究方向？毕竟我们现在还缺乏一些稳定的测试手段，能让我们以一种持续性的方法来改变微生物菌群，并对疾病发展产生有意义的影响。
对免疫学研究来说，大数据会带来什么？首先，有以下“组学”都可以对免疫学研究产生有利影响，包括：基因组、微生物组、表观基因组、转录组、代谢组、通路组、细胞组和蛋白组。具体来说，比如对特定B细胞或T细胞所有抗体抗原分子的分析，这些分析结果(尤其是与能识别对应抗体的抗原决定簇的技术相结合)，可将临床诊断、抗体药物研发、疫苗研发上升到一个新高度，并能为自身抗原肽结合抗体提供新见解。
伴随着荆棘的引路，往往也会引来好歌喉的夜莺。大数据给我们带来挑战的同时，也带来了机遇，尤其是对于一些恶性疾病(比如癌症)的治疗。一种单一类型的肿瘤，往往就会伴随着多样化的基因突变，但随着投入更多的时间和金钱，会得到更多的治疗靶点。当大数据分析的精度越来越高时，对于整个疾病发生过程的了解也会越来越深入，有了“大数据分析”这项利器，更多的精准治疗方案将会产生，帮助人们做出更好的选择。

导航:首页 > 网络数据 > 生物质大数据

生物质大数据

与生物质大数据相关的资料

友情链接