『壹』 中国实施大数据战略有五大行动支点
中国实施大数据战略有五大行动支点
大数据引擎业已成为组织创新、产业升级、经济社会发展、国家治理能力现代化的核心驱动力。在借鉴欧美发达国家大数据战略实施的先进经验基础上,中国中国实施大数据战略有五大行动支点。
变革时代的大数据革命
自“智慧地球”概念于2008年11月提出以来,整个地球都沉浸在如何变得更加智慧这个庞大的课题里。联合国秘书长执行办公室于2009年正式启动了“全球脉动”倡议项目,旨在推动数字数据与快速数据收集和分析方式创新。联合国2012年5月对外发布了《大数据促发展:挑战与机遇》白皮书,探讨如何利用互联网数据推动全球发展。随着大数据发展战略得到全球各国的高度重视,世界主要国家的“智慧国家”建设发展战略和行动计划风起云涌。由于大数据是数字化生存时代的新型战略资源,对国家治理和社会发展作用巨大,各国科技界、产业界和政府部门极为关注,于是“智慧企业”“智慧校园”“智慧医院”“智慧政府”“智慧城市”被不同类型组织列为发展目标。
科学技术是第一生产力,产业的每一次革命性跃迁都离不开科技革命的推动,往往只有那些抓住技术革命的战略机遇并迅速作出适应性调整的国家或民族才能不断生存发展。毫无疑问,大数据是当前一个事关经济社会发展全局的战略性产业,已经成为全球高科技产业竞争的前沿领域,以美、日、欧为代表的全球发达国家已经展开以大数据为核心的新一轮信息战略以及新一轮的人才竞争、技术竞争、产业竞争、企业竞争和国家竞争。报告显示,2014年,全球大数据市场增长速度达53%,总体规模为285亿美元。到2017年,全球大数据市场收入将达500亿美元,这意味着从2011年起连续6年年复合增长率达38%。中国市场情报中心有关统计显示,2012年中国大数据市场规模为4.5亿元,同比增长40.6%,到2018年,中国大数据市场规模将达到463.4亿元。2012—2013年度,在欧美国家1217家营业额收入超过10亿美元的企业中,643家企业制定了大数据战略,其中7%的企业至少投入了5亿美元,15%的企业至少投入了1亿美元发展大数据。
显然,随着经济社会的发展,大数据带来的深刻影响和巨大价值逐渐被认识,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为我们提供了一种全新的看待世界的方法,大数据带来的信息风暴正在全方位地改变着我们的生活、工作和思维。
大数据战略实施的国际经验
欧美发达国家相继制定了大数据发展战略,并制订了具体的实施政策和行动计划,已经取得初步成效。总体而言,这些战略具有以下几个方面典型特征:
开放性。自2009年美国政府开放数据门户网站data.gov上线以来,各国政府掀起开放数据运动。通过开放政府数据,提高政府透明度,提升政府治理能力和效率,更好地满足公众需求,促进社会创新,带动经济增长。据统计,截至2014年1月12日,开放数据运动已覆盖全球44个国家(地区)。2013年6月,八国集团首脑在北爱尔兰峰会上签署《开放数据宪章》,各国表示愿意进一步向公众开放可机读的政府数据,并在2013年末制定相应的行动计划。英国承诺2015年前开放有关交通运输、天气和健康方面的核心公共数据库,并将投资1000万英镑建立世界上首个“开放数据研究所”。2013年11月,法国政府出台《八国集团开放数据宪章行动计划》,作出“朝着默认公开发布数据的目标前进”“建立一个开放平台以鼓励创新和提高透明度”等几项承诺。
智能性。2010年11月,德国联邦政府启动“数字德国2015”战略,推动互联网服务、云计算、物联网、3D技术以及电动汽车信息通信技术等信息通讯产业的发展,推动实施基于传统制造业智能化和数据化的“工业制造4.0战略”,将物联网引入制造业,打造智能工厂,工厂通过CPS(网络物理系统)实现在全球互联。2011年,韩国就提出“智慧首尔2015”计划,目标是到2015年成为世界上最方便使用智能技术的城市,建立与市民沟通的智能行政服务,建成适应未来生活的基础设施和成为有创造力的智慧经济都市。2013年6月,日本安倍内阁公布《面向2020年的ICT综合战略》,全面阐述2013-2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”的目标。
价值性。2012年4月,英国经济与商业研究中心的一份研究报告预计了2012-2017年大数据产生的经济利益:2011年英国私企和公共部门企业的数据资产价值为251亿英镑,2017年将达到407亿英镑。大数据增加的创新与就业机会,将贡献价值240亿英镑,同时为小企业创造预计价值为420亿英镑的发展前景。该报告还预测大数据将创造新业务市场,即创造58000个就业机会。大数据可以更有效地改进客户需求分析,预计此项优化将产生738亿英镑的效益。大数据可以优化产品存量和资源分配,大大降低成本,预计产生460亿英镑的效益。同时,政府部门通过大数据可对医疗保健系统进行防欺诈检测和分析,预计节省不必要的支出达20亿英镑。显然,如果有意识地在更大的合理范围内开放大数据,大数据将带来更多的价值增殖。
应用性。2012年9月,IBM公司启动在加拿大安大略省巴里市兴建智能数据中心,即IBM加拿大领导数据中心,旨在推进节能化数据中心管理方面的研究和为企业提供能使其连续性经营的服务以及灾备数据服务。为响应公民对数据的需求,加拿大逐步开放地理空间数据,并将大数据研究列为政府科研基金重点资助对象。2013年8月,英国政府发布的《英国农业技术战略》指出,英国今后对农业技术的投资将集中在大数据上,目标是将英国的农业科技商业化。
保障性。2012年5月,美国政府宣布投资2亿美元提高大数据技术(包括数据的储存、分析、收集),以加快科学研究、加强国家安全、改革教学和培训体系以及促进专业人才发展。2013年1月,英国商业、创新和技能部宣布注资6亿英镑发展8类高新技术,其中,1.89亿英镑用来发展大数据技术。“欧盟开放数据战略”将重点加强在数据处理技术、数据门户网站和科研数据基础设施三方面的投入,旨在欧洲企业与市民能自由获取欧盟公共管理部门的所有信息,建立一个汇集不同成员国以及欧洲机构数据的“泛欧门户”。
中国实施大数据战略的行动支点
为了应对大数据战略带来的机遇和挑战,借鉴欧美发达国家大数据战略实施的先进经验,我国需要在如下几个方面下功夫:
完善制度。完善知识产权保护体系,促进数据共享和整合,推动数据价值创造。加快制定相关标准和指南,制定大数据发展战略。出台法律,为涉及企业运营数据、客户信息、个人隐私和各种行为的详细记录数据提供法律保障。完善信息资源市场,界定信息产权,明确信息的所有权、使用权和收益权的规定,发挥市场在信息资源方面的优化配置作用。
构筑平台。成立大数据管理局,建立信息资源共享平台,开放政府信息资源。以部门业务信息为基础,从标准、流程、数据三个方面进行设计,建设“物理分散、逻辑集中”的公共数据中心,通过数据集中挖掘,提高数据利用率,提高各级政府行政管理效率和公共服务水平。
突破技术。在明确大数据关键技术的基础上,确定重点支持领域,加大研发支持力度,整合云计算、物联网等专项项目,支持大数据技术的开发、研究和应用示范,引导企业加大大数据研发力度,实现关键技术突破,特别需要优先支持大数据技术在舆情研判、疾病防治、灾害控制、交通安全、城市管理、公共服务、社会治理等民生领域的应用。在公共服务和公用事业管理中采购大数据技术,以政府采购引导国内大数据发展。
培养人才。加大高水平大数据人才的引进和培养力度,重点培育数据挖掘、机器学习等方面的专业人才。制定激励措施对企业管理者进行数据分析技术培训,提高大型企业管理人员的数据分析能力。同时,在大学相应阶段有针对性地增加相关大数据技术与分析课程,增加学生在感知技术、数据仓库、数据搜索、数据挖掘与可视化等领域的知识积累,扩大人才储备规模。
提供保障。设立大数据研发基金,加大大数据平台建设的投入力度,加强智慧企业、智慧医院、智慧政府、智慧城市建设。设立奖惩制度,强化大数据国家安全建设。建立预算制度,控制各部门经费流向,推动数据共享,防止“信息孤岛”现象的出现。
『贰』 中国目前在大数据行业的发展情况如何
我国大数据产业开始已进入深化阶段
中国大数据产业从萌芽到如今渐成体系,已走过将近10个年头。“十四五”开局之年,大数据产业也进入了集成创新、深度应用的新阶段。大数据在医疗、工业、交通等领域的融合应用技术加快创新突破,大数据融合应用重点从虚拟经济转变为实体经济;大数据底层技术方面,信息安全、模式识别、语言工程、计算机辅助设计、高性能计算等加快突破,大数据技术领域逐渐补齐短板,并进一步强化长板。
—— 更多本行业研究分析详见前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》
『叁』 Gartner发布2014技术成熟度曲线,大数据去哪儿
摘要:近日,Gartner发布了最新的新兴技术成熟度曲线(Hype Cycle for Emerging Technologies)。去年,大数据享有至高无上的地位,处于Gartner所说的“期望膨胀高峰期”。但现在,大数据已经跌入“幻灭的低谷期”。物联网取而代之,占据了成熟度曲线的最高点。
在2012年和2013年,Gartner的分析师们曾认为,物联网还需要10年以上的时间才会达到“生产率稳定期”。但今年,他们认为物联网只需要5到10年时间就会达到这个最终成熟阶段。
小编的理解是,无论是大数据还是物联网,数据和数据之上的信息都是不变的“主旋律”。物联网将数据流动的介质进一步“下沉”至具备联网功能和数据传输能力的“物件”上,让更多的机器、设备成为人们生产与生活交互的一部分。
今年成熟度曲线上的一个新面孔是“数据科学”,预计它将在2到5年时间里达到稳定期。与其说它是一项或一套具体的技术,不如说是一个处理大数据的学科。Gartner在《成熟度曲线特别报告》(Hype Cycle Special Report)中指出:“虽然对大数据的兴趣依然不减,但它已经离开高峰期,因为该市场已经安定下来,有了一整套合理的方法,新的技术和实践被添加进现有方案。”虽然大数据兴趣不减,市场趋向稳定,但Gartner认为,大数据还有5到10年才会达到稳定期。看来,大数据相关技术的演进在未来一段时间内仍将展现出强大的生命力,相关市场的营收也将不断放大。
对于Gartner对新兴技术起伏的判断,皮尤研究中心(Pew Research Center)的互联网、科学和技术研究主管李·雷尼(Lee Rainie)作出了如下评价:“虽然成熟度曲线不是严格地以数据为基础,但高德纳分析师们对技术采纳状况作出的判断常常与其他优秀观察者的看法相一致。在特定创新应该处于曲线什么位置的问题上,有时会有争议,但该曲线所勾勒的总体趋势很少受到质疑。”
2014年标志着新兴技术成熟度曲线这个有用的工具已经问世20周年。该工具旨在跟踪人们对技术和商业创新的周期性兴趣爆发和经常性失望的起起伏伏。Gartner副总裁兼著名分析师贝特西·伯顿(Betsy Burton)谈到了成熟度曲线作为跟踪创新及其商业影响力如何逐渐演变的工具,以及2014年版的新变化。伯顿说:“很多时候,我们看到的是人们的注意力从支持信息、应用、云端系统和大数据的基础设施,转向我们如何运用云计算、大数据和社交的某些能力来解决现实的商业问题。我们正目睹人们的注意力从技术本身转向将这项技术实际运用到现实的商业需求和商业成果中。”
『肆』 大数据未来的发展前景怎么样
大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:
第一:大数据自身能够创造出更多的价值。大数据相关技术紧紧围绕数据价值化展开,数据价值化将开辟出广大的市场空间,重点在于数据本身将为整个信息化社会赋能。随着大数据的落地应用,大数据的价值将逐渐得到体现。目前在互联网领域,大数据技术已经得到了较为广泛的应用。
第二:大数据推动科技领域的发展。大数据的发展正在推动科技领域的发展进程,大数据的影响不仅仅体现在互联网领域,也体现在金融、教育、医疗等诸多领域。在人工智能研发领域,大数据也起到了重要的作用,尤其在机器学习、计算机视觉和自然语言处理等方面,大数据正在成为智能化社会的基础。
第三:大数据产业链逐渐形成。经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相关产业规模会进一步扩大。
第四:产业互联网将推动大数据落地。当前互联网正在经历从消费互联网向产业互联网过渡,产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业,可以说产业互联网的发展空间非常大,而大数据则是产业互联网发展的一个重点,大数据能否落地到传统行业,关乎产业互联网的发展进程,所以在产业互联网阶段,大数据将逐渐落地,也必然落地。
『伍』 闲话国内大数据发展简史&产业化落地
文·blogchong
之所以想要说一说这个话题,是因为下午在技术群中不经意间,就类似话题进行了比较剧烈的脑暴讨论。
讨论范围包括了互联网公开数据的挖掘、价值变现、数据获取的合法性以及数据产业落地等相关方向。
当时就一直在思考这个问题,后续完了自己又想了几遍,发现确实有所得,也挺多东西想表达一下的。
大数据是在2009年开始相对比较正式引入国内的,基本上与Hadoop的“入侵”国内同步。
但在那时其实并没有实际落地的东西,除了一些大公司在试探性使用,直到2012-2013年,国外已经完成一轮“探险”,国内才陆续开始思考大数据如何落地的事了。
确实是这样的,国内在新技术领域上,一向落后于国外半拍,而我也恰恰也是在那个时候“入坑”的。
那个时候其实很多公司企业(除了当时BAT内部使用的案例),也是在尝试性的涉足大数据领域,一边追逐技术的完善,一边在探索大数据与实际业务的结合点。
直到2014年,算是大数据在国内的一个爆发点,正式的转折点。
首先,以Hadoop为代表的生态趋于成熟,甚至结合内存处理领域、数据实时处理领域,已经形成了一套完整的大数据平台技术解决方案。
其次,已经越来越公司结束了探索性实验,用实际的成果尝到了大数据这种处理模式的好处,已经形成了越来越多的实际可参考的良性案例。
当然,最重要的是确实存在实际的规模数据处理的需求。其实这个需求一直存在,只是很多时候没有找到合适的契机爆发出来。
也就是从2014开始,大数据的人才市场需求在急剧扩增,很多其他IT领域开发人员纷纷转型到数据行业,其中以逐渐没落的传统IT行业为代表。
有人才市场需求,进一步促进了大数据培训市场的发展,各种大数据培训机构如雨后春笋般的出现。
其实这也是没办法的事,因为当时还没有哪个高校开设有大数据相关的课程呢。
当然,这波浪潮同样卷到了学术界,部分高校也意识到了这个技术大势,陆续有不少高校开始开设大数据相关的专业课程。
2015年,随着互联网的发展,市场各种互联网应用需求的饱和,导致了流量红利的消失,让很多企业公司不得不考虑通过数据来提升效率以及推进用户体验,例如推荐系统、个性化服务等。
资本市场从2014-2015年逐渐介入,进一步促进各大互联网企业公司向数据化转型,使得大数据这个领域进一步达到高潮。
我们知道,资本市场算是迎来半个寒冬,流量红利的消失,o2o在15年底都死的差不多了,16年让资本市场变得更谨慎。
但是,就算是这样,国内很多以大数据为技术驱动的公司依然拿了不少融资,包括神策、诸葛IO、GrowingIO等第三方数据分析公司,明略数据等这种针对于服务偏传统行业的数据公司,甚至如DataEye类似垂直领域的数据分析公司都活的好好的。
同时,在国家政策方面,2016年可谓是大数据的国家政策元年,各种国家政策开始偏向大数据。
这意味着,大数据已经从半个风口的状态,过渡到理性、稳健的状态,这是一个良性的状态。
正如上面所说,目前大数据已经逐渐从“潮流”这种略带风险性的标志状态,过渡到稳健、良性发展的状态。
提前“入坑”的童鞋,相信已经享受到“潮流”带来的部分福利,包括比其他普通IT同行们略高的薪酬待遇,以及更多、更自由的选择性等。
好吧,其中也包括我了~~ 哈哈
那么,后续会是一种什么样的情况呢?
首先,数据化依然会是一个不可逆的趋势,在资本以及政策的驱动下,更多的公司会逐渐的进行数据化,甚至包括很多传统IT产业,一样挡不住这个大势。
那么在人才市场需求上的情况呢?个人感觉需求还是在的,因为市场远没有达到饱和,但是福利待遇会有所下降。
这是为什么呢?
2016-2017年,各大高校逐渐会开始投放专业的“正规军”,是的,那些大数据专业的学生们将被正式投放到市场中了。
此外,从2014年到2016年,大数据的培训市场一直在增加的,不管是线上的还是线下的。
这意味着,每年,哦不,应该是每几个月都会有大量的大数据速成工投放到人才需求市场中。
最重要的一点,经过四五年的大浪淘沙,市场已经有一大批“自学成才”的“老司机”可以撑起场面了。
在人才需求以及人才的待遇上,而不是一才难求的现象了,也会逐渐的趋于良性,趋于理性(之前写过一篇大数据招聘乱象的文章,喜欢可以看看 《你们是不是真的很缺大数据工程师?》 )。
所以,如果你从大学刚毕业出来,发现大数据没有传说中那么“香馍馍”,也不要奇怪;而从大数据培训流水线上下来的童鞋们,也需要做好准备,薪水可能无法跟你想象中那样了,翻个几倍之类的。
不过“老司机们”到不用太过于担心,虽然大数据的人才市场趋于日渐饱和,但是“驾龄”足够,“车”开的足够溜的,依然只有那么一小戳人。
你依然是稀缺资源,所以不要怕怕。
你看我就不怕怕,哈哈~~
虽然,这一切看似良好,但是有些东西依然值得我们更进一步的深思。
正如之前在技术群中进行脑暴讨论的那样,这几年大数据虽然市场需求不少,但是依然难以达到产业化的状态。
这里贴一个产业化的概念:产业化是指某种产业在市场经济条件下,以行业需求为导向,以实现效益为目标,依靠专业服务和质量管理,形成的系列化和品牌化的经营方式和组织形式。
目前大数据的实际落地形式大部分都以辅助、加速其他业务为主,起一个催化剂,提升效率,加快速度的作用,鲜有看到以大数据作为独立产业而存在的。
当然也有,比如上面提到的第三方数据分析商、垂直领域的DataEye,以及为企业提供大数据解决方案的明略数据等,也算是以大数据为根深立命而存在的。
但是总体来说,真的不多,而且绝大部分都是以2B的形式存在。我们知道,从格局上来看,2B的产品永远是难以做到2C产品那种真正宏伟规模,改变产业格局的。
所以,从这点来说,虽然你市场需求放在这里,但想真正以大数据为切入点、为立足的根本做点事,其实也没有想象中那么容易。
纠结~~
不过作为大数据领域的半个“老司机”,依然是希望大数据这个技术领域、这个行业,有一天能够形成独立的、推动人类进程的一些东西。
亦如互联网、亦如社交网络、亦如电子商务、亦如移动互联网等!
最近一直有很多新手同行们向我请教大数据方向上的一些事,自己也一直在思考互联网开放数据落地变现、以及大数据产业格局相关的问题。
所以,想的多了,对一些东西还是有一些看法的,藏在心中不吐不快。
也希望,上面闲话里的一些东西能够引起你的一些共鸣,当然反驳也欢迎,欢迎一切与人格无关,与技术有关、与业态有关的探讨。
下次希望有时间,能和大家一起探讨一些关于互联网开放数据落地变现相关的话题,这也是我目前一直想探索的东西,下次如果有所收获再写点 东西吧。
(正文完)
『陆』 中国大数据六大技术变迁记
中国大数据六大技术变迁记_数据分析师考试
集“Hadoop中国云计算大会”与“CSDN大数据技术大会”精华之大成, 历届的中国大数据技术大会(BDTC) 已发展成为国内事实上的行业顶尖技术盛会。从2008年的60人Hadoop沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,每一届的中国大数据技术大会都忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变。
2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的 2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。
本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。
大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望:
追本溯源,悉大数据六大技术变迁
伴随着大数据技术大会的发展,我们亲历了中国大数据技术与应用时代的到来,也见证了整个大数据生态圈技术的发展与衍变:
1. 计算资源的分布化——从网格计算到云计算。 回顾历届BDTC大会,我们不难发现,自2009年,资源的组织和调度方式已逐渐从跨域分布的网格计算向本地分布的云计算转变。而时至今日,云计算已成为大数据资源保障的不二平台。
2. 数据存储变更——HDFS、NoSQL应运而生。 随着数据格式越来越多样化,传统关系型存储已然无法满足新时代的应用程序需求,HDFS、NoSQL等新技术应运而生,并成为当下许多大型应用架构不可或缺的一环,也带动了定制计算机/服务器的发展,同时也成为大数据生态圈中最热门的技术之一。
3. 计算模式改变——Hadoop计算框成主流。 为了更好和更廉价地支撑其搜索服务,Google创建了Map/Rece和GFS。而在Google论文的启发下,原雅虎工程师Doug Cutting开创了与高性能计算模式迥异的,计算向数据靠拢的Hadoop软件生态系统。Hadoop天生高贵,时至今日已成为Apache基金会最“Hot”的开源项目,更被公认为大数据处理的事实标准。Hadoop以低廉的成本在分布式环境下提供了海量数据的处理能力。因此,Hadoop技术研讨与实践分享也一直是历届中国大数据技术大会最亮眼的特色之一。
4. 流计算技术引入——满足应用的低延迟数据处理需求。 随着业务需求扩展,大数据逐渐走出离线批处理的范畴,Storm、Kafka等将实时性、扩展性、容错性和灵活性发挥得淋漓尽致的流处理框架,使得旧有消息中间件技术得以重生。成为历届BDTC上一道亮丽的风景线。
5. 内存计算初露端倪——新贵Spark敢与老将叫板。 Spark发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,从多迭代批量处理出发,兼容并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。在短短4年,Spark已发展为Apache软件基金会的顶级项目,拥有30个Committers,其用户更包括IBM、Amazon、Yahoo!、Sohu、网络、阿里、腾讯等多家知名公司,还包括了Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。毫无疑问,Spark已站稳脚跟。
6. 关系数据库技术进化—NewSQL改写数据库历史。 关系数据库系统的研发并没有停下脚步,在横向扩展、高可用和高性能方面也在不断进步。实际应用对面向联机分析处理(OLAP)的MPP(Massively Parallel Processing)数据库的需求最迫切,包括MPP数据库学习和采用大数据领域的新技术,如多副本技术、列存储技术等。而面向联机事务处理(OLTP)的数据库则向着高性能演进,其目标是高吞吐率、低延迟,技术发展趋势包括全内存化、无锁化等。
立足扬帆,看2014大数据生态圈发展
时光荏苒,转眼间第2014中国大数据技术大会将如期举行。在技术日新月异的当下,2014年的BDTC上又可以洞察些什么?这里我们不妨着眼当下技术发展趋势:
1. MapRece已成颓势,YARN/Tez是否可以再创辉煌? 对于Hadoop来说,2014是欢欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等众多巨头都加大了Hadoop方面的投入。然而对于众多机构来说,这一年却并不轻松:基于MapRece的实时性短板以及机构对更通用大数据处理平台的需求,Hadoop 2.0转型已势在必行。那么,在转型中,机构究竟会遭遇什么样的挑战?各个机构如何才能更好地利用YARN所带来的新特性?Hadoop未来的发展又会有什么重大变化?为此,BDTC 2014特邀请了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成员Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等国际顶尖Hadoop专家,我们不妨当面探讨。
2. 时过境迁,Storm、Kafka等流计算框架前途未卜。 如果说MapRece的缓慢给众多流计算框架带来了可乘之机,那么当Hadoop生态圈组件越发成熟,Spark更加易用,迎接这些流计算框架的又是什么?这里我们不妨根据BDTC 2014近百场的实践分享进行一个侧面的了解,亦或是与专家们当面交流。
3. Spark,是颠覆还是补充? 与Hadoop生态圈的兼容,让Spark的发展日新月异。然而根据近日Sort Benchmark公布的排序结果,在海量(100TB)离线数据排序上,对比上届冠军Hadoop,Spark以不到十分之一的机器,只使用三分之一的时间就完成了同样数据量的排序。毫无疑问,当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Shark,开启Spark SQL或许已经初见端倪。那么,当Spark愈加成熟,更加原生的支持离线计算后,开源大数据标准处理平台这个荣誉又将花落谁家?这里我们一起期待。
4. 基础设施层,用什么来提升我们的网络? 时至今日,网络已成为众多大数据处理平台的攻坚对象。比如,为了克服网络瓶颈,Spark使用新的基于Netty的网络模块取代了原有的NIO网络模块,从而提高了对网络带宽的利用。那么,在基础设施层我们又该如何克服网络这个瓶颈?直接使用更高效的网络设备,比如Infiniband能够带来多少性能提升?建立一个更智能网络,通过计算的每个阶段,自适应来调整拆分/合并阶段中的数据传输要求,不仅提高了速度,也提高了利用率。在BDTC 2014上,我们可以从Infiniband/RDMA技术及应用演讲,以及数场SDN实战上吸取宝贵的经验。
5. 数据挖掘的灵魂——机器学习。 近年来,机器学习领域的人才抢夺已进入白热化,类似Google、IBM、微软、网络、阿里、腾讯对机器学习领域的投入也是愈来愈高,囊括了芯片设计、系统结构(异构计算)、软件系统、模型算法和深度应用各个方面。大数据标志一个新时代的到来,PB数据让人们坐拥金山,然而缺少了智能算法,机器学习这个灵魂,价值的提取无疑变得镜花水月。而在本届会议上,我们同样为大家准备了数场机器学习相关分享,静候诸位参与。
而在技术分享之外,2014年第二届CCF大数据学术会议也将同时召开,并与技术大会共享主题报告。届时,我们同样可以斩获许多来自学术领域的最新科研成果。
以上是小编为大家分享的关于中国大数据六大技术变迁记的相关内容,更多信息可以关注环球青藤分享更多干货
『柒』 什么叫大数据
什么叫大数据?
大数据-网络
大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据-维基网络
大数据(英语:Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息[3][4]。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学[9]、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线感测网络。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5×1018)的数据。
大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”
随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对big data感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。
大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含了各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(right to be forgotten)一案作出裁定,判决Google应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。
『捌』 全球大数据发展的新动向与新趋势
全球大数据发展的新动向与新趋势
目前,伴随移动互联网、智能硬件和物联网的快速普及,全球数据总量呈现指数级增长态势,与此同时,机器学习等先进的数据分析技术创新也日趋活跃,使得大数据隐含的价值得以更大程度的显现,一个更加注重数据价值的新时代正悄然来临。
瑞士洛桑国际管理学院2017年度《世界数字竞争力排名》显示,各国数字竞争力与其整体竞争力呈现出高度一致的态势,即数字竞争力强的国家整体竞争力也很强,同时也更容易产生颠覆性创新。实际上,以美国、英国、韩国和日本等为代表的发达国家一向重视大数据在促进经济发展和社会变革、提升国家整体竞争力等方面的重要作用,当前更是把大数据视为重要的战略资源,大力抢抓大数据技术与产业发展先发优势,积极捍卫本国数据主权,力争在数字经济时代占得先机。我们从各国发展大数据的新举措中或许可以窥探到大数据发展的新趋势。
美国:稳步实施“三步走”战略 打造面向未来的大数据创新生态
美国是率先将大数据从商业概念上升至国家战略的国家,通过稳步实施“三步走”战略,在大数据技术研发、商业应用以及保障国家安全等方面已全面构筑起全球领先优势。
第一步快速部署大数据核心技术研究,并在部分领域积极开发大数据应用。2012年白宫科技政策办公室发布《大数据研究发展倡议》,以提升从海量和复杂数据中获取知识、挖掘价值的能力,进而推动科学与工程领域创新步伐加速。第二步调整政策框架与法律规章,积极应对大数据发展带来的隐私保护等问题。2014年美国发布《大数据:把握机遇,守护价值》白皮书,再次重申要把握大数据可为经济社会发展带来创新动力的重大机遇,同时也要高度警惕大数据应用所带来的隐私、公平等问题,以积极、务实的态度深刻剖析可能面临的治理挑战。第三步强化数据驱动的体系和能力建设,为提升国家整体竞争力提供长远保障。2016年美国发布《联邦大数据研发战略计划》,形成涵盖技术研发、数据可信度、基础设施、数据开放与共享、隐私安全与伦理、人才培养以及多主体协同等七个维度的系统的顶层设计,打造面向未来的大数据创新生态。
特朗普就任美国总统后,对大数据应用及其产业发展持续关注,并督促相关部门实施大数据重大项目,构建并开放高质量数据库,强化5G、物联网和高速宽带互联网等大数据基础设施,促进数字贸易和跨境数据流动等。2017年4月美国能源部与退伍军人事务部联合发起“百万退伍军人项目(MVP)”,希望借助机器学习技术分析海量数据,以改善退伍军人健康状况。2017年9月医疗保健研究与质量局发布美国首个可公开使用的数据库,其中包括全美600多个卫生系统。白宫科技政策办公室一直积极与他国展开合作,以预防数字经济监管障碍、促进信息流动和反对数字本地化等。
英国:紧抓大数据产业机遇 应对脱欧后的经济挑战
大数据发展初期,英国在借鉴美国经验和做法的基础上,充分结合本国特点和需求,加大大数据研发投入、强化顶层设计,聚焦部分应用领域进行重点突破。近期英国特别重视大数据对经济增长的拉动作用,密集发布《数字战略2017》《工业战略:建设适应未来的英国》等,希望到2025年数字经济对本国经济总量的贡献值可达2000亿英镑,积极应对脱欧可能带来的经济增速放缓的挑战。
2012年,英国便将大数据作为八大前瞻性技术领域之首,一次性投入1.89亿英镑用于相关科研与创新,在八大领域投入总额中占比高达38.6%,远超其余七个领域。随后,英国将全方位构建数据能力上升为国家战略,于2013年发布《把握数据带来的机遇:英国数据能力战略规划》,提出人力资本(研发人才与善于运用数据的民众)、基础设施和软硬件开发能力,以及丰富开放的数据资产是发展大数据的核心,事关能否在未来竞争中占据领先优势。该战略同时提出了11项具体行动部署,短短两三年便释放出巨大的数字潜力。从2010年至2015年,数字经济对英国经济增加值的贡献增长了21.7%,超过了同期经济增加值增长率的17.4%,2015年数字经济规模为1180亿英镑,在经济增加值中的占比超过了7%,其中数字商品和服务出口总值超过500亿英镑。
为从数据中挖掘出更大的价值,创造并维护一个能够保持更多收益和增长的经济体系,同时让全社会都能从中收益,英国政府在2017年3月提出了新时期发展数字经济的顶层设计《数字战略2017》。新战略中提出七大目标及相应举措,特别是对各个目标都提出了更高标准的要求。一是打造世界一流的数字基础设施,二是使每个人都能获得所需的数字技能,三是成为最适合数字企业创业和成长的国家,四是推动每一个企业顺利实现数字化智能化转型,五是拥有最安全的网络安全环境,六是塑造平台型政府,为公众提供最优质的数字公共服务,七是充分释放各类数据的潜能的同时解决好隐私和伦理等问题。
2017年11月,英国面向全社会发布《工业战略:建设适应未来的英国》白皮书,强调英国应积极应对人工智能和大数据、绿色增长、老龄化社会以及未来移动性等四大挑战,呼吁各方紧密合作,促进新技术研发与应用,以确保英国始终走在未来发展前沿,实现本轮技术变革的经济和社会效益最大化。为此,2018年4月底英国专门发布《工业战略:人工智能》报告,立足引领全球人工智能和大数据发展,从鼓励创新、培养和集聚人才、升级基础设施、优化营商环境以及促进区域均衡发展等五大维度提出一系列实实在在的举措。
韩国:以大数据等技术为核心应对第四次工业革命
多年来,韩国的智能终端普及率以及移动互联网接入速度一直位居世界前列,这使得其数据产出量也达到了世界先进水平。为充分利用这一天然优势,韩国很早就制定了大数据发展战略,并力促大数据担当经济增长的引擎。2016年年底,韩国发布以大数据等技术为基础的《智能信息社会中长期综合对策》,以积极应对第四次工业革命的挑战。
2013年12月,韩国多部门便联合发布“大数据产业发展战略”,将发展重点集中在大数据基础设施建设和大数据市场创造上。2015年年初,韩国给出全球进入大数据2.0时代的重大判断,大数据技术日趋精细、专业服务日益多样,数据收益化和创新商业模式是未来大数据的主要发展趋势。基于此,在同年发布的《K-ICT》战略中,韩国将大数据产业定义为九大战略性产业之一,目标是到2019年使韩国跻身世界大数据三大强国。韩国还非常注重对他国经验的借鉴,2015年5月中国发布《大数据发展调查报告》后,韩国专门对中国与韩国大数据应用情况进行了比较分析,并聚焦韩国大数据应用水平与大数据市场不协调的问题,提出了一系列新举措。
近两年全球第四次工业革命浪潮的到来,倒逼韩国重新审视本国智能制造和信息技术的发展,并于2016年年底提出《智能信息社会中长期综合对策》,将大数据及其相关技术界定为智能信息社会的核心要素,并提出具体的发展目标与举措。
一是充分挖掘数据资源价值,强化未来竞争力源头。构筑开放共享的大规模数据基础设施,到2025年实现320个公共机构的数据开放;促进数据流通和使用,激活数据交易市场,推动公共和民间数据实现以价值为导向的交易;激活数据分析企业,到2020年数据专业服务企业规模达到100家;培养大数据专业人才,将每年培养的数据科学家数量从2017年的500名增长到2030年的1000名;发展区块链技术,提高数据管理可靠性等。二是筑牢大数据技术基础。加强数学方法论研究,长期稳定支持新型学习推断、量子计算、神经形态芯片等下一代计算技术研究,推动科研大数据开放共享,推进产业数据中心建设,强化产学研合作共同研发产业共性技术等。三是面向数据服务需求,构筑超连接网络环境。确保频率资源供应,有序推进5G商用化进程,实现大规模机器间通信,实现不同业务网络之间的实时超连接;推动通信运营商体系优化,摒除后发企业进入运营行业的壁垒;进一步强化物联网和云计算基础设施并充分利用智能传感器数据;分阶段引进量子通信与安全网络等。
大数据发展新趋势
综合以上几个典型国家的新动向和新举措,可以发现当前及未来全球大数据发展的新趋势。
一是大数据与人工智能、云计算、物联网、区块链等技术日益融合,成为各国抢抓未来发展机遇的战略性技术。英国在工业战略中强调大数据与人工智能的发展,很有可能推动现有的商品和服务市场被颠覆和取代。日本将大数据、物联网和人工智能界定为建设超智能社会服务平台必不可少的共性技术。韩国与日本相似,将智能信息化社会定义为“ICBM(物联网、云服务、大数据和手机)与AI(人工智能)相融合的社会”。
二是大数据资源对各国经济政治博弈的重要性更加凸显。美国最新版国家安全战略中,特朗普再次将“数据”比喻为一种能源,他认为掌握了数据及相关能力,就是为美国经济的持续增长、有效抵制敌对意识形态以及部署建设最强大军事力量等构建了最基础的保障。最近的“脸书危机”事件,再加上近年来“剑桥分析”及其母公司“战略通讯实验室”参与多国领导人选举活动事件,使得大数据资源及相关技术成为某些国家利益集团及企业影响政治生态和社会安全的重要手段,各国政治社会发展面临的风险变得更加复杂和不可预测。
三是大数据应用基础条件发生跨越式变化。一方面政府数据开放的广度和深度将进一步拓宽,多源数据融合技术的进步,为公共服务数字化与智能化水平的提升提供了技术层面的保障,数据的标准化及开放则成为各国建设服务型政府和平台型政府的资源保障。另一方面大数据应用的基础设施将成为与水电气暖等相类似的设施,成为人们生活中必不可少的部分。这其中包括物联网、智能硬件等数据采集类设施,5G、光通信等超高速数据传输类设施,以及超级计算机、云计算以及边缘计算等计算类设施,以及新型的存储设施等等。
四是大数据安全为各国实现“平衡”发展带来更严峻的挑战。各国大数据发展战略中,不同国家和地区对“数据开放共享”与“个人信息保护”的侧重点不同,比如欧盟希望通过强制性的统一标准最大限度的保护个人隐私,而美国则更相对弱化法律约束、希望充分调动企业的主动性,这种态势对未来全球大数据国际规则的融合发展提出了新难题。同时对大数据企业权利和义务也要进行再平衡,监管太严将限制企业创新的脚步,但如果放手太多,在实践中难免出现企业对个人隐私大规模侵害的问题。