A. 大数据的产生与发展现状研究
摘 要:大数据的产生给未来信息技术带来新的机遇与挑战。大数据对数据处理的有效性、实时性提出了更高要求,需要根据大数据的特点对当前数据处理技术实施变革,从而形成更有益于大数据采集、存储、处理、管理、分析、共享的新兴技术。本文从大数据的产生与发展、特征、主要应用以及大数据所带来的挑战等方面进行阐述与分析。
关键词 :大数据 物联网 信息处理 海量计算
一、大数据的产生与发展现状
随着物联网、云计算等信息技术的飞速发展,大数据技术(Big Data)也越发进入人们的视线。大数据是用传统方法或工具很难处理或分析的数据信息。目前,人们对大数据的理解还不够全面和深入,关于大数据的含义也没有一个统一的定义。亚马逊大数据科学家John Rauser认为:大数据是超过任何一台计算机处理能力的庞大数据量。Informatica 的中国区首席顾问但彬指出:大数据是海量数据与复杂类型的数据的结合。而维基网络则把大数据定义成诸多大而复杂的、难以用当前数据库处理的数据集合。
大数据研究受到国内外学术界和工业界的广泛关注,已成为当今信息时代全世界讨论的热点。2008年,Nature杂志就推出大数据专刊,计算社区联盟也在同一年发表了报告《Big data computing; Creating revolutionary breakthroughs in commerce, science and society》,报告阐述了解决大数据问题所需的关键技术以及所面临的挑战。美国奥x政府于2012年3月在白宫网站发布了《大数据研究和发展倡议》,提出了通过收集、处理海量、复杂的数据信息,从而提升能力,加快科学和工程领域的创新步伐,转变学习教育模式,强化美国本土的安全”。2011年1月,微软公司同惠普公司合作开发了一系列能够提升生产力,同时提高决策速度的设备。此外,欧盟委员会也提出驾驳大数据浪潮的战略思路,日本发布的《面向 2020 的 ICT综合战略》也提出需要构造大量丰富的数据基础。
近年来,我国也积极开展对大数据的研究。2011年10月,工信部确认京沪深杭等 5 城市为“云计算中心”试点城市。2012年6月,中国计算机学会青年计算机科技论坛也举办了“大数据时代,智谋未来”学术报告研讨会。大数据及其科学研究方法涉及应用领域很广,并将与国计民生密切相关的科学决策、金融工程以及知识经济领域紧紧接合。
二、大数据的特点
目前,企业界和学术界都一致认为,大数据具有4个“V”特征,即:容量(Volume)、种类(Variety)、速度(Velocity)和至关重要的`价值(Value)。
(1) 容量(Volume)巨大。海量的数据集从TB 级别提升到PB 级别。
(2) 种类(Variety)繁多。大数据数据源有多种,数据格式和种类不同于以前所规定的结构化数据范畴。
(3)价值(Value)密度低。如视频的例子,在不间断连续监控的过程中,可能有意义的数据仅有一两秒。
(4)速度(Velocity)快。包含大量实时、在线数据处理分析的需求1秒钟定律。
三、大数据应用的领域
大数据产业的发展将推动全球经济由粗放型向集约型转变,这将对提升企业整体竞争力和政府监管能力具有意义深远的影响。
商业作为大数据的重要应用领域。沃尔玛公司通过对消费者购物行为等一系列非结构化数据的分析,了解不同顾客的购物习惯,公司从所销售的数据进行分析,从而选出适合在一起搭配出售的商品;淘宝也针对买家开设了大数据平台,为客户量身打造了一整套完善的网购体验产品。
大数据在金融业也起到了至关重要的作用。美国Equifax公司利用大数据技术,通过对其的数据库中与财务有关的记录海量信息进行索引处理和交叉分享,从而得到客户的个人信用等级,以推断出客户的支付需求与能力。
随着大数据在医疗与生命科学研究过程中的广泛应用和不断扩展。2010年,中国公布的《十二五规划》指出:要重点建设国家级、省级和地市级三级医疗卫生信息平台,建设电子病历和电子档案两个最为基础的数据库。各级医院也将在医疗信息仓库、数据中心等领域加大投入,医疗数据信息的存储将愈加被关注,医疗信息中心的关注焦点也将由传统的计算领域转为存储领域。
除此之外,大数据在制造业领域也有着广阔的应用。制造业企业积累了广泛的数据信息,在开展对业务数据进行技术管理的同时,企业需要通过大数据处理技术来帮助决策者从数据库储存的海量信息中找到有价值的信息,并且对其进行分析处理,从而增强决策的正确性、规避风险。
四、大数据所面临的挑战
大数据技术使人们能够更好地利用之前不能使用的各个数据类型,找出被忽略的信息,促进企业组织更加高效、智能。但随着对大数据研究的不断深入,人们也更加意识到当大数据技术向人们敞开“方便之门”的同时,也带来了众多的挑战:
(1)大数据需要更为专业化的管理技术人才。
(2) 大数据的合理利用需要解决容量大、类别多和时效性高的数据处理问题。
(3)大数据的利用对信息安全提出了更高要求。
(4)大数据的集成与管理问题。
这些挑战已成为关系到未来大数据发展的重要因素,同时也成为未来引领大数据发展的推动力。
五、结束语
大数据已经逐步渗透到人们工作生活的诸多领域中,对于大数据的研究也在不断的深化。本文针对大数据的产生与发展、特征、主要应用以及大数据所带来的挑战等方面进行阐述与分析。大数据的发展还处于初级阶段,还有更为广阔的空间需要人们不断开拓,如何合理地利用大数据、更加高效地处理大数据来为人们服务仍需要广大研究者不断地研究和探索。
参考文献:
[1]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报,2014,46(6):957- 972.
[2]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,23(4):168-172.
[3]刘俊.基于大数据流的Multi-Agent系统模型研究[J].计算机技术与发展, 2007,17(5):166-169.
B. 中国大数据六大技术变迁记
中国大数据六大技术变迁记_数据分析师考试
集“Hadoop中国云计算大会”与“CSDN大数据技术大会”精华之大成, 历届的中国大数据技术大会(BDTC) 已发展成为国内事实上的行业顶尖技术盛会。从2008年的60人Hadoop沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,每一届的中国大数据技术大会都忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变。
2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的 2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。
本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。
大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望:
追本溯源,悉大数据六大技术变迁
伴随着大数据技术大会的发展,我们亲历了中国大数据技术与应用时代的到来,也见证了整个大数据生态圈技术的发展与衍变:
1. 计算资源的分布化——从网格计算到云计算。 回顾历届BDTC大会,我们不难发现,自2009年,资源的组织和调度方式已逐渐从跨域分布的网格计算向本地分布的云计算转变。而时至今日,云计算已成为大数据资源保障的不二平台。
2. 数据存储变更——HDFS、NoSQL应运而生。 随着数据格式越来越多样化,传统关系型存储已然无法满足新时代的应用程序需求,HDFS、NoSQL等新技术应运而生,并成为当下许多大型应用架构不可或缺的一环,也带动了定制计算机/服务器的发展,同时也成为大数据生态圈中最热门的技术之一。
3. 计算模式改变——Hadoop计算框成主流。 为了更好和更廉价地支撑其搜索服务,Google创建了Map/Rece和GFS。而在Google论文的启发下,原雅虎工程师Doug Cutting开创了与高性能计算模式迥异的,计算向数据靠拢的Hadoop软件生态系统。Hadoop天生高贵,时至今日已成为Apache基金会最“Hot”的开源项目,更被公认为大数据处理的事实标准。Hadoop以低廉的成本在分布式环境下提供了海量数据的处理能力。因此,Hadoop技术研讨与实践分享也一直是历届中国大数据技术大会最亮眼的特色之一。
4. 流计算技术引入——满足应用的低延迟数据处理需求。 随着业务需求扩展,大数据逐渐走出离线批处理的范畴,Storm、Kafka等将实时性、扩展性、容错性和灵活性发挥得淋漓尽致的流处理框架,使得旧有消息中间件技术得以重生。成为历届BDTC上一道亮丽的风景线。
5. 内存计算初露端倪——新贵Spark敢与老将叫板。 Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,从多迭代批量处理出发,兼容并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。在短短4年,Spark已发展为Apache软件基金会的顶级项目,拥有30个Committers,其用户更包括IBM、Amazon、Yahoo!、Sohu、网络、阿里、腾讯等多家知名公司,还包括了Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。毫无疑问,Spark已站稳脚跟。
6. 关系数据库技术进化—NewSQL改写数据库历史。 关系数据库系统的研发并没有停下脚步,在横向扩展、高可用和高性能方面也在不断进步。实际应用对面向联机分析处理(OLAP)的MPP(Massively Parallel Processing)数据库的需求最迫切,包括MPP数据库学习和采用大数据领域的新技术,如多副本技术、列存储技术等。而面向联机事务处理(OLTP)的数据库则向着高性能演进,其目标是高吞吐率、低延迟,技术发展趋势包括全内存化、无锁化等。
立足扬帆,看2014大数据生态圈发展
时光荏苒,转眼间第2014中国大数据技术大会将如期举行。在技术日新月异的当下,2014年的BDTC上又可以洞察些什么?这里我们不妨着眼当下技术发展趋势:
1. MapRece已成颓势,YARN/Tez是否可以再创辉煌? 对于Hadoop来说,2014是欢欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等众多巨头都加大了Hadoop方面的投入。然而对于众多机构来说,这一年却并不轻松:基于MapRece的实时性短板以及机构对更通用大数据处理平台的需求,Hadoop 2.0转型已势在必行。那么,在转型中,机构究竟会遭遇什么样的挑战?各个机构如何才能更好地利用YARN所带来的新特性?Hadoop未来的发展又会有什么重大变化?为此,BDTC 2014特邀请了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成员Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等国际顶尖Hadoop专家,我们不妨当面探讨。
2. 时过境迁,Storm、Kafka等流计算框架前途未卜。 如果说MapRece的缓慢给众多流计算框架带来了可乘之机,那么当Hadoop生态圈组件越发成熟,Spark更加易用,迎接这些流计算框架的又是什么?这里我们不妨根据BDTC 2014近百场的实践分享进行一个侧面的了解,亦或是与专家们当面交流。
3. Spark,是颠覆还是补充? 与Hadoop生态圈的兼容,让Spark的发展日新月异。然而根据近日Sort Benchmark公布的排序结果,在海量(100TB)离线数据排序上,对比上届冠军Hadoop,Spark以不到十分之一的机器,只使用三分之一的时间就完成了同样数据量的排序。毫无疑问,当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Shark,开启Spark SQL或许已经初见端倪。那么,当Spark愈加成熟,更加原生的支持离线计算后,开源大数据标准处理平台这个荣誉又将花落谁家?这里我们一起期待。
4. 基础设施层,用什么来提升我们的网络? 时至今日,网络已成为众多大数据处理平台的攻坚对象。比如,为了克服网络瓶颈,Spark使用新的基于Netty的网络模块取代了原有的NIO网络模块,从而提高了对网络带宽的利用。那么,在基础设施层我们又该如何克服网络这个瓶颈?直接使用更高效的网络设备,比如Infiniband能够带来多少性能提升?建立一个更智能网络,通过计算的每个阶段,自适应来调整拆分/合并阶段中的数据传输要求,不仅提高了速度,也提高了利用率。在BDTC 2014上,我们可以从Infiniband/RDMA技术及应用演讲,以及数场SDN实战上吸取宝贵的经验。
5. 数据挖掘的灵魂——机器学习。 近年来,机器学习领域的人才抢夺已进入白热化,类似Google、IBM、微软、网络、阿里、腾讯对机器学习领域的投入也是愈来愈高,囊括了芯片设计、系统结构(异构计算)、软件系统、模型算法和深度应用各个方面。大数据标志一个新时代的到来,PB数据让人们坐拥金山,然而缺少了智能算法,机器学习这个灵魂,价值的提取无疑变得镜花水月。而在本届会议上,我们同样为大家准备了数场机器学习相关分享,静候诸位参与。
而在技术分享之外,2014年第二届CCF大数据学术会议也将同时召开,并与技术大会共享主题报告。届时,我们同样可以斩获许多来自学术领域的最新科研成果。
以上是小编为大家分享的关于中国大数据六大技术变迁记的相关内容,更多信息可以关注环球青藤分享更多干货
C. 数据发展的历程
大数据的发展历程
随着计算机和网络的发展,信息不断“爆炸”:
1970s: 超大规模数据库 (VLDB)【GB=10^9字节】
21世纪初:海量数据(massive data)【TB=10^12字节】
2008年:Big data 【PB=10^15字节】
现在实际的数据量已经达到:ZB=10^3EB=10^6PB=10^21字节
2008年9月4日,《自然》(Nature)刊登了一个名为“Big Data”的专辑。2011年5月,美国著名咨询公司麦肯锡(McKinsey)发布《大数据:创新、竞争和生产力的下一个前沿》的报告,首次提出了“大数据”概念,认为数据已经成为经济社会发展的重要推动力。大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
2013年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”(Big Data Research and Development Initiative),有人将其比之为克林顿政府当年提出的“信息高速公路”计划 。该计划涉及美国国家科学基金会、卫生研究院、能源部、国防部等6个联邦政府部门,投资超两亿美元,研发收集、组织和分析大数据的工具及技术。2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大地震族尘一度搁置的政府ICT战略研究。英国政府也宣称投资6亿英镑科学资金,并计划在未轮卜来两年内在大数据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。
2012年3月,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位。中国分别举办了第一届(2011年)兆桐禅和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。2015年8月31日,国务院正式印发《促进大数据发展行动纲要》。
D. 为什么说谷歌三件宝是大数据的技术起源
因为,Google是大数据鼻祖。很多人提起大数据,必然会想起Google 的“三驾马车”(也称谷歌三宝):GFS、MapRece、BigTable。正所谓三篇论文定大数据之江山,它激发了大数据技术开源时代的到来,百花齐放,争相斗艳,成就了Hadoop的辉煌十载。尤其是近年来,大数据技术的发展,不论是袭郑凳技术的迭代,还是生态圈的繁荣,都远超人们的想象。从 Spark 超越 Hadoop 勇攀高峰,到 Flink 横空出世挑战 Spark 成为大数据处理领域一颗耀丛瞎眼的拍旅新星,再到如今 Google 又决心用 Apache Beam 一统天下。大数据开源技术的发展可谓是继往开来,跌宕起伏,波澜壮阔,俨然一副绵绵不断的辉煌画卷。
E. 大数据时代的产生背景
一、大数据时代城市管理的机遇:
首先,有利于数字化城市建设。城市化过程中出现的管理问题,传统的城市管理方式早已对我国出现的城市问题束手无策,在大数据时代到来的背景下,数字化城市建设就呼之欲出。
其次,有利于电子政务建设。长期以来,我国政府在处理公共事务时都基本采用了传统的处理方式,纸质化的模式占据了主要地位。随着信息技术的不断更新以及大数据时代的到来,电子政务也随之应运而生。由于大数据时代的特点以及不断更新发展,电子政务的形式也不断得到更新。
最后,有利于智慧城市建设。智慧城市建设则是在大数据技术上产生的城市建设和管理方案。可见,大数据时代的到来更加有利于我国的智慧城市建设,为智慧城市的最终建成提供真实可靠的信息基础。会在一定程度上难以实现真正共享。另外,因为信息化很不平衡,各地各部门使用的信息技术标准很难统一,最后导致数据孤岛的现象也并非个例。
二、大数据时代城市管理的挑战 :
大数据时代,机遇存在的同时也不可避免会遇到许多挑战,数据开放不足、数据共享不足、数据质量不优等等都面临着严峻的挑战。
首先,数据开放不足。数据是信息的重要载体,信息的公开在一定意义上就是数据的公开。在所有的数据公开中,政府相关数据公开尤为引人瞩目。国外早就对数据公开确立了“公开为原则,不公开为例外”的原则,我国也有类似规定,但是真实执行情况令人堪忧。
其次,数据共享不足。就目前来看,谁掌握了大量真实可靠的信息,谁就掌握了主动权,信息在一定程度上就是权威的象征,权力和利益的象征。再者,政府各部门大部分存在利己倾向, 信息就会在一定程度上难以实现真正共享。另外,因为信息化很不平衡,各地各部门使用的信息技术标准很难统一,最后导致数据孤岛的现象也并非个例。
然后,数据质量不优。数据质量问题直接影响依靠数据获得的信息的真实有效性,最终影响整体决策的有效性。数据质量主要包括数据的真实性、完整性和有效性。数据在收集、整合、存储和使用四个阶段当中,每个阶段都极有可能出现数据质量问题。在我国城市管理中,各级各部门每天都会面对大量繁琐的数据,数据收集渠道主要有下级单位上报数据、调查统计、普查等等,每一个渠道也同样会有很多因素影响数据质量。
F. 浅述大数据技术的发展历程与未来发展趋势
从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。
然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。
大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。
经过多年来的发展和沉淀,人们对大数据已经形成基本共识是大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。
G. 谁最早提出大数据的概念
最早提出大数据的是美国数据学家维克多•迈尔-舍恩伯格。推荐他的两本书《删除》,《大数据时代》。