『壹』 推动大数据高速发展和数据交易的时间
大数据概念最早的提出者现已不可考,但早在1980年,未来学家托夫勒在其所著的《第三次浪潮》中就提到“大数据”一词。
2001年麦塔集团分析员道格·莱尼指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,资料输入输出的速度)与多变(Variety,多样性),现在这被认为是大数据的三个特性。
2011年麦肯锡正式定义了大数据的概念。
2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。大数据开始跟时代挂钩,在当时人们并不以为然,甚至许多人认为这不过是商学院或咨询公司哗众取宠罢了。现在“大数据时代”已经变成了人尽皆知的口头禅。
2012年维克托·迈尔·舍恩伯的《大数据时代》开始在国内风靡,推动了国内大数据的发展,许多人大数据的启蒙也是来源于这本书。
2010后云计算的成熟让大数据不再是纸上谈兵,大数据技术有了真正实现的可能性。
我从三个方面梳理了下大数据发展的时间线:政府推动、大数据技术、大数据价值。
政府推动:
2009——美国政府开放政府数据,这一行动使得从肯尼亚到英国范围内的各国政府相继效仿。
2010——德国联邦政府启动“数字德国2015”战略,将物联网引入制造业,打造智能工厂,工厂通过CPS(网络物理系统)实现在全球互联。
2011——工信部把信息处理技术作为四项关键技术创新工程之一,其中包括了海量数据存储、数据挖掘、图像视频智能分析等大数据重要组成部分。
2012——美国政府在白宫网站发布《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。之后美国政府宣布2亿美元投资大数据领域,大数据技术从商业行为上升到国家科技战略。
联合国在纽约发布大数据政务白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。
2013——英国政府宣布注资6亿英镑发展8类高新技术,其中,1.89亿英镑用来发展大数据技术。
欧盟实施开放数据战略,旨在开放欧盟公共管理部门的所有信息。
2014——数据开放运动已覆盖全球44个国家。国务院通过《企业信息公示暂行条例(草案)》,要求在企业部门间建立互联共享信息平台,运用大数据等手段提升监管水平。
2015——五中全会的“十三五”规划中将大数据作为国家级战略。
『贰』 大数据真的是“未来的新石油”
大数据真的是“未来的新石油”
当前IT业最热门的话题应该就是大数据了,这个两年前才被炒作起来的概念,现在已无处不在,占居了互联网的半壁江山,它与云计算一起成为未来信息技术发展最重要的内容。处于IT行业的人们,如果不知道大数据,不了解大数据所创造的那些神话般的故事,就好象已经跟不上信息技术的发展,成为时代的落伍者了。
那么什么是大数据?现在还没人能给出一个确切的答案,它同云计算一样,是一个形象但却笼统的概念。大家一致的理解是从4V的角度来描述这一概念的内涵。所谓4V就是说大数据具有体量巨大(Volume)、种类繁多(Variety)、实时处理(Velocity)、数据真实(Veracity)的特性。信息技术的发展,使互联网遍布世界的每个角落,各种各样的信息都可通过网络进行传播。世上所发生的每件事情,人类所进行的每项思考,社会所进行的每点进步,知识所增加的每种内容都可通过互联网进行汇集。网络技术、传感技术与射频技术使各种事物都可产生大量数据。事物的内容、时空、方位、特性都可转化为数据,这些经济的、社会的、规范的、杂乱的、简单的、复杂的等各式各样的数据代表了不同事物的内涵。代表不同事物的海量数据可以通过网络进行汇集,汇集后的整体数据反应了事物的本质特性或发展趋势。而这种反应事物本质特性或发展趋势的数据具有一定的价值,通过高性能计算机的数据提取、价值分析、数据表达等大数据技术,可以从大数据中把这些价值提取出来。不同的需要可以提取出不同的价值,所有的价值都可以为人类服务,这就是大数据的本质。
大数据,这一鲜明而又形象的概念之所以如此引人注目,是因为许多像亚马逊、谷歌这样的大公司为它杜撰了无数神话般的故事。每一个故事都告诉人们,大数据具有无所不能的洞察力。它可以象伟大的先知一样预测未来,可以利用玄妙的相关关系推测人的喜好,可以利用宠大的数据窥探人的内心,可以利用趋势分析引导人的行为,甚至可以用事物发展曲线来控制人的思维,改变人类社会的发展方向。
大数据利用最多的地方是商业领域。大家都知道尿布与啤酒的故事,通过大数据分析,找出这两个毫不相干的事物之间的关联,利用推荐系统,向不同用户提供不同的产品推销方案,提高产品的销售量;另一个众所周知的故事就是通过购物记录来分析少女怀孕的案例,通过分析用户的购买行为,推测用户的现在状态与未来需求。尽管这一案例因为侵犯别人隐私而广受批评,但却说明了大数据分析在商业领域的价值。还有无数这样或那样的故事,都说明大数据在分析人们的喜好与购买习惯上的巨大作用,利用这种分析,商家可以更好地进行营销。权威的市场调查机构说,大数据将会改变未来的商业规则,实时竞价系统(RTB)、更加智能的推荐系统以及基于大数据的商业智能分析(BA),使企业能够生产更加适合用户喜好的产品,能够找到向用户推销产品更好的方法,能够为用户提供更好的服务,能够利用有限的资源产生更多的效益,大数据的这些功能将会使经济社会更快更好地发展。
大数据的另一个应用领域就是社会公共领域。利用大数据,政府可以更好地管理社会,为社会提供更好的公共服务;教育部门可以更好地获取与传播知识,提高民众的素质;卫生部门可以预测重大流行疾病的发生,提前作出防范预警;安全部门可以监控社会状况,确保国家不受破坏。谷歌公司前几年利用大数据绘制了“世界流感地图”[1]用来帮助人们了解世界各地流感的发病情况;利用大数据预测禽流感在各地的爆发趋势,为民众提供预防建议,向卫生部门提供监控资料。在公共安全领域,大数据也有巨大的作用,如美国就建立了基于各种传感技术与大数据技术的网络监控系统,预测重大社会公共事件的发生,比如爆发大规模游行活动、可能遭受的恐怖袭击等。
随着科技的发展,大数据的应用也延伸到个人服务领域。穿戴式设备的产生标志着信息技术的发展到了以人为中心的阶段。像谷歌眼镜、苹果手表这样的穿戴式设备把技术与人体结合在起来,使人类可以更加便捷得获取信息。这些穿戴式设备利用大数据为个人提供学习、生活、健康等方面的数据服务。大数据通过穿戴式设备发挥其作用,同时穿戴式设备本身也成为收集数据、构建大数据的来源。穿戴式设备作为一种工具,大数据是其服务的内容。
大数据有如此巨大的作用,让一些信息技术发达的国家倍加关注,很多大型信息公司也把大数据当作公司未来发展的重点。美国是当今世界最为重视大数据发展的国家,也是利用大数据较好的国家。美国政府把大数据作为未来信息技术发展的重中之重,认为大数据将引起信息技术发展的革命,改变未来社会的发展模式。2012年3月美国政府发布了《大数据研究和发展倡议》,把大数据称作“未来社会发展的新石油”,把发展大数据研究提到国家战略的高度上来。为掌控这一“未来的新石油”,引领世界技术发展方向,联邦政府制定了大数据研究发展计划,推进相关研究机构进行科技研究和创新发现。改进从海量数据中提取价值的方法,提高从数据中获取知识的能力,加速美国在科技领域中的前进步伐,确保美国在信息技术领域的领先地位。美国政府指定了国家科学基金(NSF)、国家卫生研究院(NIH)、能源部(DOE)、国防部(DOD)、国防部高级研究计划局(DARPA)、地质勘探局(USGS)6个联邦部门来负责推进大数据的研究,并计划投资2亿美元用来研究收集、储存、保留、管理、分析和共享海量数据的技术。
政府的投入与政策的支持,使那些本来就注重大数据研究的公司更加主动,纷纷加大对大数据研发与利用的投入,取得了不菲的成绩。如Apache基金会开发的Hadoop分布式处理系统,经过不断发展完善,现已成为大数据处理的标准结构;微软开发的Windows Azure平台使大数据的处理更加人性化、简易化;还有其它公司,经过不断的创新研究让大数据技术更加完善、更加实用。技术的发展使大数据的价值更加突显,人们对它的期望也不断提高。据说谷歌公司利用大数据不但可以预测流感的发生,也可预测美国的经济复苏情况;不但可以预测明年服装的流行色,也可预测某位娱乐名星是否可以红遍世界。谷歌公司最近一个广为流传的大数据案例就是,在2013年的奥斯卡电影节上,它预测准了大部分的奥斯卡奖项得主。Facebook也是利用大数据的典型公司,大数据是这家社交网站最大的价值所在。通过对大量社交信息的分析,Facebook可以了解用户的生活习惯与购买喜好,利用定向推荐广告,为这家年轻的公司每年创造上百亿的产值。
还有许多真实的或杜撰的有关大数据的美妙故事,每一个都反应了大数据在某一领域的巨大作用,这些故事的汇编,给人们描绘了一个大数据主宰的奇幻世界。在那里,人们利用大数据可以预测任何一件事情的发展趋势,可以完成一切不可能完成的事情。每一个人都是先知、都是智者,在大数据的支持下,每一个人都通天文、晓地理,前知一千后知八百,如齐天大圣般十八般武艺样样精通。然而真的是这样吗?
可惜的是,理想很丰满,实现很骨感。至少在当前大数据还没有那么大神奇,就连谷歌公司所说的利用人们的检索词可以用来预测流感的发展这种人人都相信的故事也没能发生。当H7N9在中国出现的时候,谷歌没能给出任何有关这一流感发生与发展的预测,更不用说事先给民众发出预警,提醒人们防范了;欧洲的金融危机持续了五六年,至今没有一家大数据公司能预测这场金融危机何时结束,就连未来是向好还是向坏发展的方向都不能预测;在商业领域,个性化广告推荐这种理应可以做好的事,大数据也没能表现出其超强的功用。最近经过大数据改造的淘宝网个性推荐系统没比五六年前好多少;号称利用大数据使图书销售量大幅增加的亚马逊网站上推荐的书,没有一本是我喜观的。
2013年4月15号,波士顿马拉松比赛现场发生了震惊世界的恐怖袭击[4]。美国人悲伤地发现,那些基于现代信息技术与大数据分析的网络监控系统,并没能确保国家的安全,大数据分析在防范恐怖袭击方面,并不象人们所期望的那样有效。看来这个被称为未来技术竞争至高点的大数据,在当下还不能如人们所期望的那样有用。
产生如此悲观想法的原因,一是虽然大数据可能代表了未来信息技术发展的方向,具有光明的前景。但是在人们的意识与相关的配套技术还没有发展起来的情况下,大数据还不能发挥其巨大作用。二是大数据还没有一个确切的定义,它所具有的内涵还不能被清晰地诠释。美国把大数据被称作“未来的新石油”,然而石油是不可再生的,数据却是随时随地都在产生,越是往后产生的数据越多,数据的准确性越高,对数据的处理能力越强,这让人们对现在就收集并占有大量数据的必要性产生怀疑;还有从大数据中提取价值首先要有需求,没有需求就不知道从大数据中提取什么,当人们的思维还没有发展到可以完全掌控数据,还不知道大数据到底有什么用处时,很难对其产生需求;没有需求就没有数据收集的方向,没有方向的收集就会造成巨大浪费;在方向不明的时候,唯一可做的就是收集所有可能收集到的数据,然而这样不但会给数据的存储、管理造成具大的成本,也会产生一些法律的问题,例如是否会侵犯他人隐私等。再有,随着科技的发展,穿戴式设备会不断智能化并在生活中得以普及,这种以人为中心的智能设备本身就会不断分析所取得的数据,提取个人的喜好等特性,学习与适应人个的品性,具有人的品性特征,这样就使得从大数据中分析人的品性失去了意义。
以上这一切都让人们对大数据的发展未来产生了怀疑。因此,当美国制定大数据发展战略,把它看成“未来的新石油”时,世界其它国家虽然也十分重视这一技术的发展,却没有制定相关发展战略。这有可能是其它国家在大数据技术方面落后于美国,还不能制定明确的发展目标,也可能是人们对这一技术的发展前景还没有一个清楚的认识,无法确定大数据是否真的可以引领未来技术的发展方向。因此,我们还是暂时忘了大数据吧!别再关注那些炙热的概念炒作,静下心来认认真真地想一想大数据的真正内涵。
以上是小编为大家分享的关于大数据真的是“未来的新石油”的相关内容,更多信息可以关注环球青藤分享更多干货
『叁』 大数据的历史
李娜再度夺得大满贯,超越了张德培的华人大满贯纪录,非举国体制下的奇迹造就了举国的愉悦。
在总结李娜成功因素的时候,也再次看到了这样的言论:是大数据起到了重要的作用。但这次李娜夺冠,最靠谱的解释就是李娜在卡洛斯的帮助下大大提升了心理层面的战斗力。
在技术层面领先的前提下,李娜在整场比赛中克服了节奏问题,她具备了一颗冠军的心脏。2012年9月6日,代表亚洲网球至高水平的中国选手李娜在美国迎战名将小威廉姆斯。
当时,IBM公司在综合了美网过去8年的全部比赛数据之后,为参赛球员制定了“Keys to the march”的比赛制胜策略。李娜一方获得赢球的关键包括3个指标:1.一发得分率超过69%;2.4-9拍相持中得分利率要超过48%:3.发球局30-30或40-40时得分率要超过67%。
比赛结果是,李娜溃败。比赛结束后,IBM高调地宣布李娜仅仅完成了三项制胜策略中的项,而小威廉姆斯则完成了自己三项制胜策略中的两项。
于是,很多人就顺着IBM的思路问,李娜为什么不照着BM的策略去打球?其实,当当事人的主观愿望不积极的时候,大数据对他们来说不过是噪音而已。同样,数据也会因为主观意愿具有欺骗性。
我们很多时候都会被误导,认为大数据的作用是让历史提示未来。其实不然。
在网球这样的领域里,历史数据甚至常常会成为陷阱。有意思的是,在另一场女子网球比赛中,一位球员做到了IBM为其制定的三项指标中的两个,她却失败了。
而胜利的一方,只完成了一个指标。
可按照时间点划分大数据的发展历程。
大数据时代发展的具体历程如下:2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。
Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapRece技术的高性能并行数据处理服务。
这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (puting munity Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。
它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。
2009年印度 *** 建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。同年,美国 *** 通过启动://Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的 *** 数据。
该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的 *** 们相继推出类似举措。2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。
2010年2月,肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。
从经济界到科学界,从 *** 部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:“大数据”。
库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。
后来 *** 认为这一刻为一个“大数据计算的胜利。” 相继在同年5月,全球知名咨询公司麦肯锡(McKinsey&pany)肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
报告还提到,“大数据”源于数据生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。2011年12 月,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月,美国奥巴马 *** 在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2012年3月22日,奥巴马 *** 宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中, *** 对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字 *** 体现对数据的占有和控制。
数字 *** 将是继边防、海防、空防之后,另一个大国博弈的空间。2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。
鉴于美国经济持续低靡、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立于2003年。
Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国 *** 如何利用大数据更好地服务和保护人民。
这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐。
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
它已经上过《 *** 》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。 数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《 *** 》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是 *** ,所有领域都将开始这种进程。”
。
大数据时代:最早提出大数据时代到来的是全球知名咨询公司麦肯锡, 大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
大数据提出的背景:进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《 *** 》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。正如《 *** 》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是 *** ,所有领域都将开始这种进程。” (3)大数据研究和发展倡议原文扩展阅读 大数据影响 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。
大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。 在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。
有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。
这些数据的规模是如此庞大,以至于不能用G或T来衡量。大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量)。
发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万…… 截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB) EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。
而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
而到了2020年,全世界所产生的数据规模将达到今天的44倍。 每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。
然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。这样的趋势会持续下去。
我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。
大数据的精髓 大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制); B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可。
适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力; C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大。
大数据是一种现代云基础架构,它包含了多种与其他人连接和共享信息的方法。它推动了“物联网”的发展,如通过社交网站连接人、通过共享朋友或网络来寻找人们之间互相认识的可能性。大数据的背后运行着人工智能,而它对于大多数人而言是完全透明的,人们不知道背后有这样的技术。大数据位于人们日常使用的智能手机之后,然后人们通过它给移动互联网贡献信息,即使他们并没有意识到这一点。
为什么大数据如此重要?
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
总结
在大数据时代到来的时候,要用大数据的思维去发掘大数据的潜在价值。大数据的意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。从前我们所了解的数据是冷冰冰的、死气沉沉的,被存到冷备份默默地等着人拿出来用,我们对待数据的感觉十分消极,要先想清楚其用处才开始分析应用。现在,数据时代来临了,人们正在试图点燃数据,使其变热,赋予生命。所谓“活数据”,是动态的数据,流通的数据,因互动而产生,因产生而互动,是自然演化的数据,要用大数据的思维去考虑这些数据怎样才能带来效益。未来大数据的发展前景非常好,与大数据相关的职业比如数据挖掘师,数据分析师等必定会有广阔的发展空间。
这个问题是这样的:
首先你要明确你的插入是正常业务需求么?如果是,那么只能接受这样的数据插入量。
其次你说数据库存不下了 那么你可以让你的数据库上限变大 这个你可以在数据库里面设置的 里面有个数据库文件属性 maxsize
最后有个方法可以使用,如果你的历史数据不会对目前业务造成很大影响 可以考虑归档处理 定时将不用的数据移入历史表 或者另外一个数据库。
注意平时对数据库的维护 定期整理索引碎片
『肆』 大数据时代的产生背景
一、大数据时代城市管理的机遇:
首先,有利于数字化城市建设。城市化过程中出现的管理问题,传统的城市管理方式早已对我国出现的城市问题束手无策,在大数据时代到来的背景下,数字化城市建设就呼之欲出。
其次,有利于电子政务建设。长期以来,我国政府在处理公共事务时都基本采用了传统的处理方式,纸质化的模式占据了主要地位。随着信息技术的不断更新以及大数据时代的到来,电子政务也随之应运而生。由于大数据时代的特点以及不断更新发展,电子政务的形式也不断得到更新。
最后,有利于智慧城市建设。智慧城市建设则是在大数据技术上产生的城市建设和管理方案。可见,大数据时代的到来更加有利于我国的智慧城市建设,为智慧城市的最终建成提供真实可靠的信息基础。会在一定程度上难以实现真正共享。另外,因为信息化很不平衡,各地各部门使用的信息技术标准很难统一,最后导致数据孤岛的现象也并非个例。
二、大数据时代城市管理的挑战 :
大数据时代,机遇存在的同时也不可避免会遇到许多挑战,数据开放不足、数据共享不足、数据质量不优等等都面临着严峻的挑战。
首先,数据开放不足。数据是信息的重要载体,信息的公开在一定意义上就是数据的公开。在所有的数据公开中,政府相关数据公开尤为引人瞩目。国外早就对数据公开确立了“公开为原则,不公开为例外”的原则,我国也有类似规定,但是真实执行情况令人堪忧。
其次,数据共享不足。就目前来看,谁掌握了大量真实可靠的信息,谁就掌握了主动权,信息在一定程度上就是权威的象征,权力和利益的象征。再者,政府各部门大部分存在利己倾向, 信息就会在一定程度上难以实现真正共享。另外,因为信息化很不平衡,各地各部门使用的信息技术标准很难统一,最后导致数据孤岛的现象也并非个例。
然后,数据质量不优。数据质量问题直接影响依靠数据获得的信息的真实有效性,最终影响整体决策的有效性。数据质量主要包括数据的真实性、完整性和有效性。数据在收集、整合、存储和使用四个阶段当中,每个阶段都极有可能出现数据质量问题。在我国城市管理中,各级各部门每天都会面对大量繁琐的数据,数据收集渠道主要有下级单位上报数据、调查统计、普查等等,每一个渠道也同样会有很多因素影响数据质量。
『伍』 大数据的产生与发展现状研究
摘 要:大数据的产生给未来信息技术带来新的机遇与挑战。大数据对数据处理的有效性、实时性提出了更高要求,需要根据大数据的特点对当前数据处理技术实施变革,从而形成更有益于大数据采集、存储、处理、管理、分析、共享的新兴技术。本文从大数据的产生与发展、特征、主要应用以及大数据所带来的挑战等方面进行阐述与分析。
关键词 :大数据 物联网 信息处理 海量计算
一、大数据的产生与发展现状
随着物联网、云计算等信息技术的飞速发展,大数据技术(Big Data)也越发进入人们的视线。大数据是用传统方法或工具很难处理或分析的数据信息。目前,人们对大数据的理解还不够全面和深入,关于大数据的含义也没有一个统一的定义。亚马逊大数据科学家John Rauser认为:大数据是超过任何一台计算机处理能力的庞大数据量。Informatica 的中国区首席顾问但彬指出:大数据是海量数据与复杂类型的数据的结合。而维基网络则把大数据定义成诸多大而复杂的、难以用当前数据库处理的数据集合。
大数据研究受到国内外学术界和工业界的广泛关注,已成为当今信息时代全世界讨论的热点。2008年,Nature杂志就推出大数据专刊,计算社区联盟也在同一年发表了报告《Big data computing; Creating revolutionary breakthroughs in commerce, science and society》,报告阐述了解决大数据问题所需的关键技术以及所面临的挑战。美国奥x政府于2012年3月在白宫网站发布了《大数据研究和发展倡议》,提出了通过收集、处理海量、复杂的数据信息,从而提升能力,加快科学和工程领域的创新步伐,转变学习教育模式,强化美国本土的安全”。2011年1月,微软公司同惠普公司合作开发了一系列能够提升生产力,同时提高决策速度的设备。此外,欧盟委员会也提出驾驳大数据浪潮的战略思路,日本发布的《面向 2020 的 ICT综合战略》也提出需要构造大量丰富的数据基础。
近年来,我国也积极开展对大数据的研究。2011年10月,工信部确认京沪深杭等 5 城市为“云计算中心”试点城市。2012年6月,中国计算机学会青年计算机科技论坛也举办了“大数据时代,智谋未来”学术报告研讨会。大数据及其科学研究方法涉及应用领域很广,并将与国计民生密切相关的科学决策、金融工程以及知识经济领域紧紧接合。
二、大数据的特点
目前,企业界和学术界都一致认为,大数据具有4个“V”特征,即:容量(Volume)、种类(Variety)、速度(Velocity)和至关重要的`价值(Value)。
(1) 容量(Volume)巨大。海量的数据集从TB 级别提升到PB 级别。
(2) 种类(Variety)繁多。大数据数据源有多种,数据格式和种类不同于以前所规定的结构化数据范畴。
(3)价值(Value)密度低。如视频的例子,在不间断连续监控的过程中,可能有意义的数据仅有一两秒。
(4)速度(Velocity)快。包含大量实时、在线数据处理分析的需求1秒钟定律。
三、大数据应用的领域
大数据产业的发展将推动全球经济由粗放型向集约型转变,这将对提升企业整体竞争力和政府监管能力具有意义深远的影响。
商业作为大数据的重要应用领域。沃尔玛公司通过对消费者购物行为等一系列非结构化数据的分析,了解不同顾客的购物习惯,公司从所销售的数据进行分析,从而选出适合在一起搭配出售的商品;淘宝也针对买家开设了大数据平台,为客户量身打造了一整套完善的网购体验产品。
大数据在金融业也起到了至关重要的作用。美国Equifax公司利用大数据技术,通过对其的数据库中与财务有关的记录海量信息进行索引处理和交叉分享,从而得到客户的个人信用等级,以推断出客户的支付需求与能力。
随着大数据在医疗与生命科学研究过程中的广泛应用和不断扩展。2010年,中国公布的《十二五规划》指出:要重点建设国家级、省级和地市级三级医疗卫生信息平台,建设电子病历和电子档案两个最为基础的数据库。各级医院也将在医疗信息仓库、数据中心等领域加大投入,医疗数据信息的存储将愈加被关注,医疗信息中心的关注焦点也将由传统的计算领域转为存储领域。
除此之外,大数据在制造业领域也有着广阔的应用。制造业企业积累了广泛的数据信息,在开展对业务数据进行技术管理的同时,企业需要通过大数据处理技术来帮助决策者从数据库储存的海量信息中找到有价值的信息,并且对其进行分析处理,从而增强决策的正确性、规避风险。
四、大数据所面临的挑战
大数据技术使人们能够更好地利用之前不能使用的各个数据类型,找出被忽略的信息,促进企业组织更加高效、智能。但随着对大数据研究的不断深入,人们也更加意识到当大数据技术向人们敞开“方便之门”的同时,也带来了众多的挑战:
(1)大数据需要更为专业化的管理技术人才。
(2) 大数据的合理利用需要解决容量大、类别多和时效性高的数据处理问题。
(3)大数据的利用对信息安全提出了更高要求。
(4)大数据的集成与管理问题。
这些挑战已成为关系到未来大数据发展的重要因素,同时也成为未来引领大数据发展的推动力。
五、结束语
大数据已经逐步渗透到人们工作生活的诸多领域中,对于大数据的研究也在不断的深化。本文针对大数据的产生与发展、特征、主要应用以及大数据所带来的挑战等方面进行阐述与分析。大数据的发展还处于初级阶段,还有更为广阔的空间需要人们不断开拓,如何合理地利用大数据、更加高效地处理大数据来为人们服务仍需要广大研究者不断地研究和探索。
参考文献:
[1]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报,2014,46(6):957- 972.
[2]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,23(4):168-172.
[3]刘俊.基于大数据流的Multi-Agent系统模型研究[J].计算机技术与发展, 2007,17(5):166-169.
『陆』 大数据——大价值、大机遇、大变革(全彩)的序
“这是最好的时代,也是最坏的时代;这是智慧的时代,也是愚蠢的时代”。每天,有无数的企业在建立,也有无数的企业在消失。互联网让信息和数据快速积累和流动,世界变得更透明,更平坦。
谁能想象五年之后,一个不懂数据的公司如何生存和发展?数据革命正在瓦解已经建立的产业和商业模式,你、我都准备好了吗?
一切始于紧迫感
自2012年3月华盛顿宣布“大数据研究和发展倡议”,英国、日本、德国、加拿大等国纷纷效仿,推出与大数据应用相关的战略研究,自此一场关于“大数据”的战略争夺已经拉开战幕。
能源在消耗中面临枯竭,从而引发各国对能源的争夺和对危机的恐惧;数据不但不会因为占有而枯竭,还会随着使用和传播不断的丰富与生长。可以想象,数据将成为未来世界的DNA。但拥有的数据规模、质量和应用带来的马太效应将形成明显的数据资源区隔和竞争优势,因此大数据成为各国争夺的下一个战略前沿。这是一场没有硝烟的战争,随着“智慧经济”的崛起,采集数据、掌握数据、运用数据必将成为国家、企业的核心竞争力。
大数据正在为我们呈现一个全新的信息社会、智慧社会,世界经济在迎来新引擎的同时,格局也酝酿着新变化。面对历史的又一次机遇,我们将扮演何种角色、如何应对,这是值得我们每一位认真思考和探究的问题。
本书从社会、经济、商业和技术等多角度展现了大数据将带来的改变和促进,同时对其发展趋势、实施中的问题和风险也做了思考。
行胜于言,我们用最短的时间完成此书的编撰就是希望每位阅读此书的读者都能从中得以触动和借鉴,从而关注大数据及大数据下的发展。
李志刚
『柒』 大数据对经济政治生活的影响 2000字
大数据时代是一个将数据当作核心资产的时代,数据呈现出战略化、资产化和社会化等特征。随着数据作为国家战略资产意识的增强,以及越来越多的国家将数据管理上升到战略层面,大数据势必会以更加积极的姿态进入到公共管理和政府治理范畴内。无论是把大数据单纯作为一种技术,还是一种抽象理念,或者是一个时代背景,它都将对政府治理理念、治理范式、治理内容、治理手段等产生不同程度的影响。本文试图将大数据这一新概念与政府治理有机结合起来,阐述大数据时代背景下的政府治理将会发生什么新变化,面临哪些机遇和挑战。
一、“大数据”概念的界定
(一)“大数据”概念的提出与发展
2008年9月4日《自然》(Nature)刊登了一个名为“Big Data”的专辑,首次提出大数据(Big Data)概念,该专辑对如何研究PB级容量的大数据流,目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。[1]2011年5月,EMC(全球最大的外置存储硬盘供应商)举办了主题为“云计算相遇大数据”的大会,首次抛出了“大数据”(Big Data)的概念。紧随其后,IBM、麦肯锡等众多国外机构发布了“大数据”的相关研究报告,2011年6月麦肯锡全球研究所发布研究报告——《大数据的下一个前沿:创新、竞争和生产力》(Big data: The Next Frontier for Innovation, Competition, and Proctivity)[2],首次提出“大数据时代”来临。此后,联合国、世界经济论坛也纷纷关注信息时代海量数据对社会经济发展所带来的冲击,2012年5月联合国“全球脉冲”(Global Pulse)计划发布《大数据开发:机遇与挑战》(Big Data for Development: Challenges & Opportunities)[3]报告,阐述了大数据带来的机遇、主要挑战和大数据应用。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》(Big Data, Big Impact: New Possibilities for International Development)[4]等系列报告。
奥巴马政府创造性地将“大数据”概念全面引入到公共行政领域。2009年,美国联邦政府发布《开放政府指令》(The Open Government Directive),作为大数据的前奏推出了Data.gov公共数据开放网站。2012年3月,美国联邦政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative)[5],正式启动了“大数据发展计划”,宣布将投入超过2亿美元在大数据研究上[6];同年5月,联邦政府发布《数字政府战略》( Digital Government Strategy)[7],致力于为公众提供更好的“数字化”服务,围绕数据进行的一系列措施在美国政府全面推进,大数据对美国政府的影响逐步显现。
(二)大数据的概念
“大数据”作为信息社会发展的一个新生事物,目前尚处在逐渐被认识、被应用的初始阶段,无论是学术界还是IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体现,因此很难对行进行精准的定义。维基网络将大数据定义为“所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”[8]。全球知名的咨询公司如麦肯锡、Gartner以及知名信息化企业如IBM等作为大数据的推崇者,更侧重于从技术层面界定大数据。2011-2013年,Gartner发布了多个与大数据有关的白皮书,如“Hype Cycle for Big Data, 2012”,定义了大数据的技术生命周期,报告中指出大数据不只是一项单一的技术,而是一个概念,是一套技术。《互联网周刊》则认为,“大数据是通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力”。[9]
⒈大数据的技术属性
大数据在诞生之初仅仅是一个IT行内的技术术语,维基网络将其定义为“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”,被概括为“4V”理论:
海量化数据(Volume)——数据体量巨大及规模完整性。随着数据加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长,数据规模从TB级别跃升到PB级别。
多样化结构(Variety)——数据类型繁多。随着物联网、社交网络、智能终端等的普及和应用,网络日志、视频、图片、地理位置信息等非结构化数据所占比例越来越大。
高速化处理(Velocity)——主要表现为数据流的处理速度快。数据规模的无限扩张既对高速化处理提出了新的要求,也为其带来了新的机遇,大数据的高速化处理要求具有时间敏感性和决策性的分析,要求能在第一时间抓住重要事件发生的信息。这一点也是大数据和传统的数据挖掘技术不同的本质区别所在。
低密度价值(Value)——体现出的是大数据运用的真实意义所有。数据规模大并不意味着价值高,相反,这些数据间更多的表现为稀缺性、不确定性和多样性。[10]
尽管对大数据难以明确定义,但大数据所具有的规模性(Volume)、多样性(Variety)和高速性(Velocity)特征被广泛地认同。在3V基础上,人们对大数据的第四特性有不同的看法,IDC认为大数据具有高价值性(Value),尽管这种价值更多地表现在低价值度的碎片化数据中,如何挖掘这种价值正是大数据的关键所在;IBM则认为大数据应该具有真实性(Veracity),真实性将促使人们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值(参见图1)。[11]随着大数据应用的深入,人们对最初的“4V”有了不同的理解和看法。2013年IBM提出了新的“4V”理论。数量(Volume)、多样性(Variety)、速度(Velocity)和精确性(Veracity)。IBM认为,尽管前3个V涵盖了大数据本身的关键属性,但真实性是当前亟需考虑的重要维度,将促使他们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值。[12]2014年,IBM发布了《践行大数据承诺:大数据项目的实施应用》(Realizing the Promise of Big Data: Implementing Big Data Projects)白皮书,在该报告中对进一步扩展了大数据的特性,首次提出将大数据的特性由4V扩展为“Vs”。[13] “Vs”在大数据已有特性的基础上,增加了数据粘度(Viscosity),主要用来衡量数据流间的关联性(resistance to flow of data);数据易变性(Variability),主要衡量数据流的变化率;数据有效性(Volatility),主要表明数据有效性的期限和存储的期限时长。我们认为,未来随着大数据技术的发展成熟,以及人们对大数据应用的深入,大数据的“Vs”特性将会不断变化和拓展。
『捌』 挥好大数据这把“双刃剑”
挥好大数据这把“双刃剑”
目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。首先在数据收集方面。要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。
大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。
为了开发大数据这一金矿,我们要做的工作还很多。首先,大数据分析需要有大数据的技术与产品支持。发达国家一些信息技术(IT)企业已提前发力,通过加大开发力度和兼并等多种手段,努力向成为大数据解决方案提供商转型。国外一些企业打出免费承接大数据分析的招牌,既是为了练兵,也是为了获取情报。过分依赖国外的大数据分析技术与平台,难以回避信息泄密风险。有些日常生活信息看似无关紧要,其实从中也可摸到国家经济和社会脉搏。因此,我们需要有自主可控的大数据技术与产品。美国政府2012年3月发布《大数据研究与发展倡议》,这是继1993年宣布“信息高速公路”之后又一重大科技部署,联邦政府和一些部委已安排资金用于大数据开发。我们与发达国家有不少差距,更需要国家政策支持。
中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。例如,提供各地天气与航班延误的关系,推动航空公司提升正点率。
大数据的挖掘与利用应当有法可依。去年底全国人大通过的加强网络信息保护的决定是一个好的开始,当前要尽快制定“信息公开法”以适应大数据时代的到来。现在很多机构和企业拥有大量客户信息。应当既鼓励面向群体、服务社会的数据挖掘,又要防止侵犯个体隐私;既提倡数据共享,又要防止数据被滥用。此外,还需要界定数据挖掘、利用的权限和范围。大数据系统本身的安全性也是值得特别关注的,要注意技术安全性和管理制度安全性并重,防止信息被损坏、篡改、泄露或被窃,保护公民和国家的信息安全。
大数据时代呼唤创新型人才。某咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。预测美国到2018年需要深度数据分析人才44万—49万,缺口14万—19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。
大数据是新一代信息技术的集中反映,是一个应用驱动性很强的服务领域,是具有无穷潜力的新兴产业领域;目前,其标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会。我们要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手,但要注意科学规划,切忌一哄而上。
『玖』 全球大数据发展的新动向与新趋势
全球大数据发展的新动向与新趋势
目前,伴随移动互联网、智能硬件和物联网的快速普及,全球数据总量呈现指数级增长态势,与此同时,机器学习等先进的数据分析技术创新也日趋活跃,使得大数据隐含的价值得以更大程度的显现,一个更加注重数据价值的新时代正悄然来临。
瑞士洛桑国际管理学院2017年度《世界数字竞争力排名》显示,各国数字竞争力与其整体竞争力呈现出高度一致的态势,即数字竞争力强的国家整体竞争力也很强,同时也更容易产生颠覆性创新。实际上,以美国、英国、韩国和日本等为代表的发达国家一向重视大数据在促进经济发展和社会变革、提升国家整体竞争力等方面的重要作用,当前更是把大数据视为重要的战略资源,大力抢抓大数据技术与产业发展先发优势,积极捍卫本国数据主权,力争在数字经济时代占得先机。我们从各国发展大数据的新举措中或许可以窥探到大数据发展的新趋势。
美国:稳步实施“三步走”战略 打造面向未来的大数据创新生态
美国是率先将大数据从商业概念上升至国家战略的国家,通过稳步实施“三步走”战略,在大数据技术研发、商业应用以及保障国家安全等方面已全面构筑起全球领先优势。
第一步快速部署大数据核心技术研究,并在部分领域积极开发大数据应用。2012年白宫科技政策办公室发布《大数据研究发展倡议》,以提升从海量和复杂数据中获取知识、挖掘价值的能力,进而推动科学与工程领域创新步伐加速。第二步调整政策框架与法律规章,积极应对大数据发展带来的隐私保护等问题。2014年美国发布《大数据:把握机遇,守护价值》白皮书,再次重申要把握大数据可为经济社会发展带来创新动力的重大机遇,同时也要高度警惕大数据应用所带来的隐私、公平等问题,以积极、务实的态度深刻剖析可能面临的治理挑战。第三步强化数据驱动的体系和能力建设,为提升国家整体竞争力提供长远保障。2016年美国发布《联邦大数据研发战略计划》,形成涵盖技术研发、数据可信度、基础设施、数据开放与共享、隐私安全与伦理、人才培养以及多主体协同等七个维度的系统的顶层设计,打造面向未来的大数据创新生态。
特朗普就任美国总统后,对大数据应用及其产业发展持续关注,并督促相关部门实施大数据重大项目,构建并开放高质量数据库,强化5G、物联网和高速宽带互联网等大数据基础设施,促进数字贸易和跨境数据流动等。2017年4月美国能源部与退伍军人事务部联合发起“百万退伍军人项目(MVP)”,希望借助机器学习技术分析海量数据,以改善退伍军人健康状况。2017年9月医疗保健研究与质量局发布美国首个可公开使用的数据库,其中包括全美600多个卫生系统。白宫科技政策办公室一直积极与他国展开合作,以预防数字经济监管障碍、促进信息流动和反对数字本地化等。
英国:紧抓大数据产业机遇 应对脱欧后的经济挑战
大数据发展初期,英国在借鉴美国经验和做法的基础上,充分结合本国特点和需求,加大大数据研发投入、强化顶层设计,聚焦部分应用领域进行重点突破。近期英国特别重视大数据对经济增长的拉动作用,密集发布《数字战略2017》《工业战略:建设适应未来的英国》等,希望到2025年数字经济对本国经济总量的贡献值可达2000亿英镑,积极应对脱欧可能带来的经济增速放缓的挑战。
2012年,英国便将大数据作为八大前瞻性技术领域之首,一次性投入1.89亿英镑用于相关科研与创新,在八大领域投入总额中占比高达38.6%,远超其余七个领域。随后,英国将全方位构建数据能力上升为国家战略,于2013年发布《把握数据带来的机遇:英国数据能力战略规划》,提出人力资本(研发人才与善于运用数据的民众)、基础设施和软硬件开发能力,以及丰富开放的数据资产是发展大数据的核心,事关能否在未来竞争中占据领先优势。该战略同时提出了11项具体行动部署,短短两三年便释放出巨大的数字潜力。从2010年至2015年,数字经济对英国经济增加值的贡献增长了21.7%,超过了同期经济增加值增长率的17.4%,2015年数字经济规模为1180亿英镑,在经济增加值中的占比超过了7%,其中数字商品和服务出口总值超过500亿英镑。
为从数据中挖掘出更大的价值,创造并维护一个能够保持更多收益和增长的经济体系,同时让全社会都能从中收益,英国政府在2017年3月提出了新时期发展数字经济的顶层设计《数字战略2017》。新战略中提出七大目标及相应举措,特别是对各个目标都提出了更高标准的要求。一是打造世界一流的数字基础设施,二是使每个人都能获得所需的数字技能,三是成为最适合数字企业创业和成长的国家,四是推动每一个企业顺利实现数字化智能化转型,五是拥有最安全的网络安全环境,六是塑造平台型政府,为公众提供最优质的数字公共服务,七是充分释放各类数据的潜能的同时解决好隐私和伦理等问题。
2017年11月,英国面向全社会发布《工业战略:建设适应未来的英国》白皮书,强调英国应积极应对人工智能和大数据、绿色增长、老龄化社会以及未来移动性等四大挑战,呼吁各方紧密合作,促进新技术研发与应用,以确保英国始终走在未来发展前沿,实现本轮技术变革的经济和社会效益最大化。为此,2018年4月底英国专门发布《工业战略:人工智能》报告,立足引领全球人工智能和大数据发展,从鼓励创新、培养和集聚人才、升级基础设施、优化营商环境以及促进区域均衡发展等五大维度提出一系列实实在在的举措。
韩国:以大数据等技术为核心应对第四次工业革命
多年来,韩国的智能终端普及率以及移动互联网接入速度一直位居世界前列,这使得其数据产出量也达到了世界先进水平。为充分利用这一天然优势,韩国很早就制定了大数据发展战略,并力促大数据担当经济增长的引擎。2016年年底,韩国发布以大数据等技术为基础的《智能信息社会中长期综合对策》,以积极应对第四次工业革命的挑战。
2013年12月,韩国多部门便联合发布“大数据产业发展战略”,将发展重点集中在大数据基础设施建设和大数据市场创造上。2015年年初,韩国给出全球进入大数据2.0时代的重大判断,大数据技术日趋精细、专业服务日益多样,数据收益化和创新商业模式是未来大数据的主要发展趋势。基于此,在同年发布的《K-ICT》战略中,韩国将大数据产业定义为九大战略性产业之一,目标是到2019年使韩国跻身世界大数据三大强国。韩国还非常注重对他国经验的借鉴,2015年5月中国发布《大数据发展调查报告》后,韩国专门对中国与韩国大数据应用情况进行了比较分析,并聚焦韩国大数据应用水平与大数据市场不协调的问题,提出了一系列新举措。
近两年全球第四次工业革命浪潮的到来,倒逼韩国重新审视本国智能制造和信息技术的发展,并于2016年年底提出《智能信息社会中长期综合对策》,将大数据及其相关技术界定为智能信息社会的核心要素,并提出具体的发展目标与举措。
一是充分挖掘数据资源价值,强化未来竞争力源头。构筑开放共享的大规模数据基础设施,到2025年实现320个公共机构的数据开放;促进数据流通和使用,激活数据交易市场,推动公共和民间数据实现以价值为导向的交易;激活数据分析企业,到2020年数据专业服务企业规模达到100家;培养大数据专业人才,将每年培养的数据科学家数量从2017年的500名增长到2030年的1000名;发展区块链技术,提高数据管理可靠性等。二是筑牢大数据技术基础。加强数学方法论研究,长期稳定支持新型学习推断、量子计算、神经形态芯片等下一代计算技术研究,推动科研大数据开放共享,推进产业数据中心建设,强化产学研合作共同研发产业共性技术等。三是面向数据服务需求,构筑超连接网络环境。确保频率资源供应,有序推进5G商用化进程,实现大规模机器间通信,实现不同业务网络之间的实时超连接;推动通信运营商体系优化,摒除后发企业进入运营行业的壁垒;进一步强化物联网和云计算基础设施并充分利用智能传感器数据;分阶段引进量子通信与安全网络等。
大数据发展新趋势
综合以上几个典型国家的新动向和新举措,可以发现当前及未来全球大数据发展的新趋势。
一是大数据与人工智能、云计算、物联网、区块链等技术日益融合,成为各国抢抓未来发展机遇的战略性技术。英国在工业战略中强调大数据与人工智能的发展,很有可能推动现有的商品和服务市场被颠覆和取代。日本将大数据、物联网和人工智能界定为建设超智能社会服务平台必不可少的共性技术。韩国与日本相似,将智能信息化社会定义为“ICBM(物联网、云服务、大数据和手机)与AI(人工智能)相融合的社会”。
二是大数据资源对各国经济政治博弈的重要性更加凸显。美国最新版国家安全战略中,特朗普再次将“数据”比喻为一种能源,他认为掌握了数据及相关能力,就是为美国经济的持续增长、有效抵制敌对意识形态以及部署建设最强大军事力量等构建了最基础的保障。最近的“脸书危机”事件,再加上近年来“剑桥分析”及其母公司“战略通讯实验室”参与多国领导人选举活动事件,使得大数据资源及相关技术成为某些国家利益集团及企业影响政治生态和社会安全的重要手段,各国政治社会发展面临的风险变得更加复杂和不可预测。
三是大数据应用基础条件发生跨越式变化。一方面政府数据开放的广度和深度将进一步拓宽,多源数据融合技术的进步,为公共服务数字化与智能化水平的提升提供了技术层面的保障,数据的标准化及开放则成为各国建设服务型政府和平台型政府的资源保障。另一方面大数据应用的基础设施将成为与水电气暖等相类似的设施,成为人们生活中必不可少的部分。这其中包括物联网、智能硬件等数据采集类设施,5G、光通信等超高速数据传输类设施,以及超级计算机、云计算以及边缘计算等计算类设施,以及新型的存储设施等等。
四是大数据安全为各国实现“平衡”发展带来更严峻的挑战。各国大数据发展战略中,不同国家和地区对“数据开放共享”与“个人信息保护”的侧重点不同,比如欧盟希望通过强制性的统一标准最大限度的保护个人隐私,而美国则更相对弱化法律约束、希望充分调动企业的主动性,这种态势对未来全球大数据国际规则的融合发展提出了新难题。同时对大数据企业权利和义务也要进行再平衡,监管太严将限制企业创新的脚步,但如果放手太多,在实践中难免出现企业对个人隐私大规模侵害的问题。
『拾』 大数据技术及应用
大数据技术及应用
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
二、什么是大数据
大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。
(一)大数据的4V特征
大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。
多样化(Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。
价值(Value):大量的不相关信息,浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
三、大数据时代对生活、工作的影响
大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
“大数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
大数据在个人隐私的方面,大量数据经常含有一些详细的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。一些处理大数据公司需要认真的对待这个问题。例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。
四、大数据时代的发展方向、趋势
根据ESM国际电子商情针对2013年大数据应用现状和趋势的调查显示:被调查者最关注的大数据技术中,排在前五位的分别是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全(9.21%)。Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中可以看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从下图可以看出,排在前三位的功能分别是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。2012年也曾做过类似的调查,当时选择丰富的挖掘模型(27.22%)比实时分析(19.88%)多7.34%。短短一年时间内,企业对实时分析的需求激增,成就了很多以实时分析为创新技术的大数据厂商。从调查结果可以看出:企业在未来一两年中有迫切部署大数据的需求,并且已经从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。与此同时,大数据还面临人才的缺乏的挑战,需要企业和高校联合起来,培养数据领域的复合型人才,帮助企业打赢这场“数据战”。
五、大数据的应用
(一)行业拓展者,打造大数据行业基石
IBM:IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS)。 IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。
该产品组合包括:打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析。软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案。
微软:2011年1月与惠普(具体而言是HP数据库综合应用部门) 合作目标是开发了一系列能够提升生产力和提高决策速度的设备。
EMC:EMC 斩获了纽交所和Nasdaq;大数据解决方案已包括40多个产品。
Oracle:Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。
(二)大数据促进了政府职能变革
重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门;解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革,另一方面政府投入将形成示范效应,大大推动大数据的发展。
(三)打造“智慧城市”
美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式” ;中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。”
(四)未来,改变一切
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。
数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
六、机遇和挑战
大数据赋予了我们洞察未来的能力,但同时诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了。多少密码和账号是因为“社交网络”流出去的?
眼下中国互联网热门的话题之一就是互联网实名制问题,我愿意相信这是个好事。毕竟我们如果明着亮出自己的身份,互联网才能对我们的隐私给予更好保护