1. 详解大数据的思想如何形成与其价值维度
详解大数据的思想如何形成与其价值维度
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,网络是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobody wants to be nobody today。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事网络迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对网络迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的。
2. 大数据时代带来更理性、更可靠的决策
大数据时代带来更理性、更可靠的决策_数据分析师考试
究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?在我们寻求对这些重要问题的解答时,牛津大学网络学院互联网研究所教授维克托·迈尔-舍恩伯格出现在我们的视野中;希望我们对他的采访,可以帮助读者们找到这些疑问的答案。
最近一段时间,“大数据”的热潮席卷全球,正如美国《福布斯》杂志所说的那样,如今,在浏览新闻网站或者参加行业会议时,想看不见或听不到“大数据”这个词几乎不可能。去年,美国6个联邦政府部门宣布将启动“大数据研发计划”,投资超过2亿美元以改进从海量和复杂的数据中获取知识的能力。同时,我国科技部发布的“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”也把大数据研究列在首位。眼下召开的全国“两会”上,有全国人大代表提出要把发展“大数据”上升为国家战略。
究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?眼前对“大数据”的关注度是否已经过高了呢?在我们寻求对这些重要问题的解答时,英国牛津大学网络学院互连网研究所教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)出现在我们的视野中,讨论“大数据”,他如果不是最合适的人选,也起码是合适人选之一。
20多年来,维克托一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理的研究。还在“大数据”这一概念众说纷纭时,维克托就已进行了系统深入的研究,2010年,他在英国《经济学人》杂志上和数据编辑肯尼思·库克耶一起,发表了长达14页的大数据专题文章。称他为最早洞见大数据时代发展趋势的数据科学家之一,并不为过。
《经济学人》说,在大数据领域,维克托是最受人尊敬的全方位发言人之一;美国《科学》杂志说,若要发起一场关于这个问题的深入讨论,没有比他更好的发起者了。
除了理论研究以外,维克托还非常接近实战世界,早在上大学期间,他就先后成立了两家数据安全和制作反病毒软件的公司,而在他写就的《大数据时代》一书中,那些最前沿、最崭新的大数据应用案例,都得益于他多年来紧跟企业与商业应用的步伐。他的咨询客户中,不乏微软、惠普、IBM、亚马逊、脸书、推特、VISA等大数据先锋们。
目前,维克托还是欧盟互联网官方政策背后的重要制定者与参与者,尤为重要的是,他还任职过新加坡商务部、文莱国防部、科威特商务部等部门,特别熟悉亚洲信息产业的发展与战略布局。
希望我们通过电子邮件对维克托的采访,可以帮助读者们找到这些疑问的答案。
失去微观层面上的精确度,为的是获取宏观层面上的洞察力
文汇报:今天,“大数据”已经成为全球炙手可热的词汇,您是从何时开始关注它的?
迈尔-舍恩伯格:多年来,我一直致力于研究数据在信息经济的发展中所扮演的重要角色,我与肯尼思·库克耶(Kenneth Cukier,我的合著者)一起发布了一系列相关研究报告。大约三年前,在我自己组织的一次会议上,我俩都意识到“大数据”的存在已经不仅仅是一种炒作或者什么宏大的宣言了,而将实实在在地改变我们的工作、生活以及整个社会,于是,我们决定就此专题写一本书。
文汇报:那么在您看来,究竟什么是大数据时代?它和传统数据时代到底有什么差别?我们知道,像沃尔玛这样的公司早在多年前,就已经将大数据运用到了商业实践中。
迈尔-舍恩伯格:事实上,过去几个世纪以来,数据已经在科学家们制定决策的过程中扮演了一定的角色,而过去几十年间,这一做法又延伸到了一些公司的决策制定过程。但在大数据时代之前,数据是非常匮乏的,我们拥有的数据非常少。因此,我们的决策、我们构建的制度都是建立在这样一种数据匮乏的基础上。今天,一切变得非常不同,它体现在三个不同的方面,我们称之为“更多”、“更乱”和“相关性”。
文汇报:这三个特征也是您在《大数据时代》一书中非常强调的,它们甚至会颠覆我们过去的整个思维方式。您能否具体描述一下这到底是怎样的过程?
迈尔-舍恩伯格:好的。我所说的“更多”,是指围绕任何一个我们想要调查的特定问题,或者是需要我们回答的疑问,我们都可以比过去任何时候获取更多的数据。在大数据时代,我们可以利用海量的数据得到非常详尽的见解,这是传统方法所不能做到的。
可以这么说,大数据时代和传统数据时代的区别,就像分辨率在200万像素的旧数码照片,一下子提高到2400万像素那样。后者是一个非常非常大的文件,它可以提供更多细节。它可以让我们不断放大,看清楚小到颗粒状的细部,而具有较低分辨率的图像在这些细节方面就会非常模糊。
基因信息就是一个很好的例子。美国有一家叫23andMe的新公司提供个人的DNA测试分析,以发现一些疾病征兆。它的成本只有两三百美元,并提醒客户关注会发展成严重疾病的个人癖好。但是公司并不对每个客户的全基因组进行测序,而是针对已知特征的位点(经研究得知因某种疾病存在,而可能会出问题的DNA片段)进行比对。这意味着,当一个新的特征被研究发现时,23andMe公司就不得不再次对客户的DNA进行测序并建立更完整的档案。
苹果公司的史蒂夫·乔布斯尝试了非常不同的方法。他得了癌症后,就有了自己全部的基因密码,数十亿的碱基对测序。这花费了他超过10万美元的成本,但这可以让医生完整地洞察他的基因密码。每当药物由于乔布斯的癌症病变而失去有效性,他们就可以根据乔布斯特定的基因信息,寻找到有效的替代药物。遗憾的是,这也没有保住乔布斯的命,但是在这一过程中获得的数据,已经延长了他的生命。
由于技术创新,现在收集大量信息的成本变得越来越低。数年前,史蒂夫·乔布斯花费了六位数的金额才做到的事情,今天,不到1000美元就可以获得同样的服务了。
而“更乱”指的是,在小数据时代,因为数据是如此稀少,我们可以确保自己收集的每一个数据点都是非常准确的。相比较而言,大数据往往是凌乱和质量参差不齐的。但是,相比以高额代价来保证测量和收集少量数据的精确性,在大数据时代,我们将接受这种杂乱,因为我们通常需要的只是一个大方向,而不是努力了解一种现象的细枝末节。我们并不是要完全放弃精确性,我们只是放弃对精确性的热衷。我们失去微观层面上的精确度,为的是获取在宏观层面上的洞察力。
电脑翻译就是其中一个例子。1990年代,IBM的研究人员使用了一套非常精确的文件(加拿大议会记录的法语和英语版)来训练计算机。尽管计算机完全按照规则行事,但基于此的翻译质量却非常低。然后,谷歌在2006年开始介入这一领域,他们没有使用来自加拿大政府的几百万句标准翻译,而是使用随手可得的任何语言。他们在整个互联网上,利用数十亿页质量参差不齐的翻译,这些翻译不怎么标准——但是,这是一个小的权衡——他们能够使用的数据大大增加了,结果翻译质量反而提高了。与更少、更标准的数据相比,更多凌乱的资料完胜了。
“更多”和“更乱”组合到一起,产生了第三个特点,“相关性”,这也是大数据带给我们的最根本性的转变。我们的思维将从因果关系转向相关关系。至今为止的整个人类历史里,全世界的人们都在寻找事件发生的原因,探寻“为什么”。但我们对原因的执着探索往往带领我们走向错误的方向。所以,我们建议,在大数据时代,在许多情况下,我们可以仅仅寻找“是什么”,而不必完全理解“为什么”。例如,对于大数据的分析中,我们可以发现机器震动中一些非常微小的变化,这些变化表明机器将很快损坏。这使我们能够在部分机器零件报废前更换它们,这被称为“预测性维护”,它可以节省不少钱。但除了提高消费效率,“相关性”还可以做更多的事情。
比如对早产儿而言,即使他们长大成人,这些小宝宝仍旧是非常脆弱的,哪怕是遇上很小的感染。医生卡罗琳·麦格雷戈研究如何给这些婴儿最好的生存机会。使用大数据分析,每分钟可以搜集这些婴儿超过一千个数据点,麦格雷戈发现一个令人震惊的事实:每当这些早产儿出现非常稳定的标志时,他们的身体其实并不稳定,正在准备发病。有了这方面的知识,她就能在一个非常早期的阶段,确定婴儿是否需要药物治疗,从而挽救更多孩子的生命。
这是典型的大数据应用:医生麦格雷戈通过更全面的传感器,可以比以往搜集到更多的数据。她也接受,在这种情况下,并不是所有的数据都是准确的,从而也会导致她分析中存在不精确的可能。她把“为什么”这个问题放在一边,而用一种更务实的方式来提供帮助,她寻找“是什么”,这才是一个更好的预见感染的办法。
我们应该记住:大数据也可以挽救生命。
正确使用大数据,可以改善医疗、教育水平,促进人类发展
文汇报:大数据时代的到来,是否将会引领新一轮的产业革命?我们应该怎样客观地看待它的价值?
迈尔-舍恩伯格:大数据将会极大地改变社会生活的方方面面,但是它的价值能否等同于工业革命,这个问题目前还不好说。我个人猜想可能不能,原因是在19世纪初工业革命刚刚开始的时候,经济发展还处于非常低的水平上,所以相对来说,当时的人们从工业化过程中所能获得的生活水平的提升是非常巨大的,今天则非常不一样了。
我们真正想强调的是,大数据时代将推动我们从根本上改变企业的运作方式,以及我们在社会中的生活方式。大数据可以提高人类制定决策的能力,这种提高将是大幅度的。有了大数据,我们不是简单地提高经济效率,而是将挽救人类生命,延长我们自己的寿命。我们还将改善教育,促进发展。同样的道理,我们必须要小心。大数据同样也有“阴暗面”,正如我们在书中讨论的那样。如果应用错误,大数据也可能会化为一个强有力的武器。因此,我们必须确保正确使用大数据。
文汇报:您提到了大数据时代的“阴暗面”,它的到来会加深数字化鸿沟吗?
迈尔-舍恩伯格:大数据是一个强大的工具。因此,如果我们使用了错误的方式,它就可能会加深数字鸿沟。但是,如果我们用得好,相信大数据就可能会改善我们的生活,尤其是对那些不那么幸运的人而言。在这一点上,你可以把它想像成火、电或是抗生素等等。
文汇报:也就是说,您对大数据的价值认知,是基于一个更长时段的历史发展。
迈尔-舍恩伯格:如果以非常广阔的视角来看人类历史,我认为,人类一直想要理解世界。起初,许多人的“知识”是基于迷信和预感。知识的发展非常慢,人们需要非常深层次的思考,再通过实践进行检验,以确保知识是可用的。
但即使如此,我们的知识仍旧不是百分之百可靠的。例如,19世纪,路易·巴斯德一直在研究狂犬病疫苗,当时有一个被狗严重咬伤而染上狂犬病的小孩,父母担心孩子会死去,恳求巴斯德试试他的试验性疫苗。巴斯德照做了,孩子活了下来。随后的庆祝活动上,巴斯德以一个英雄的身份出现,他挽救了年轻孩子的性命。但是事实的确如此吗?今天,通过更深入的研究,我们知道,在被类似病狗咬到的儿童中,只有25%会感染狂犬病。所以75%的儿童哪怕使用了无效的疫苗,仍旧可以存活下来。这个故事告诉我们,我们以为自己生活在非常科学的世界中,但其实,我们拥有的数据非常少。一种新的治疗方法在被证明安全之前,需要做几十个甚至几百个医学实验来进行测试。但这仍旧太少,人们还是会受到伤害,因为我们依靠的数据太少。在大数据时代,我们可以告别数据匮乏,做出的决策将更理性,更基于事实,当然也更可靠。这是大数据时代带给我们的希望——更好的决策将会代替我们过往那些可疑的迷信和不可靠的人类预感。
文汇报:我们看到,麦肯锡公司2011年就发布报告推测,如果把大数据用于美国的医疗保健,一年可产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。“数据创造价值”的预测已经非常振奋人心。在您看来,大数据是否只是一门价值不菲的生意?
迈尔-舍恩伯格:不,大数据可以做更多。医疗方面,我们前面已经提过,只是分析一些重要的征兆,早产婴儿的感染出现明显症状的数小时前,医生就可以预见其生病。
同样,通过大数据分析,我们也可以找出学校教科书中的哪一部分对学生而言效果最好,也可以找出效果不好的部分。到现在为止,我们只能按照人类的预感,即教师自己判断学生在理解特定课程时是否会有疑问;但在大数据时代,我们有实际的数据可以参考,例如数据显示,电子书籍的某些页面被看过许多遍,因为它让学生感觉费解,据此可以调整我们的教材。这将从根本上改变教育。
或者举公共政策为例:Inrix是为智能手机提供导航软件的公司,它还提供实时的交通数据。之所以能做到这一点,是因为每个用户本身都成为了交通流量状况的传感器,把位置和速度信息都发回Inrix公司。这样一来,就可以给行进在交通堵塞路段周围的客户提供良好服务。Inrix公司有一大堆人们的活动数据,这还将有助于城市规划者了解大家的通勤模式,人们从哪里出发去工作,然后返回,并建设基础设施,如道路和铁路。这是最有效的应用。节省钱的同时,也有利于整个社会的管理。
文汇报:大数据对于商业决策、学术研究乃至国家治理的作用是显而易见的;但是对日常生活中的普通人而言,他们一定会从中受益吗?为什么在大数据时代,还是有不少人主张远离过载的信息和数据、返璞归真回到传统的社群生活之中呢?个人生活空间一定得从“简单平面”转变到“多维存在”才有意义吗?
迈尔-舍恩伯格:千百年来,人类已经经历的世界,都是在少量数据的基础上产生很多想法的世界。海员们结束长途航行后回来,地图才会在这一次经验的基础上进行重新绘制。这显然不会很精确。经过试验和犯错的周而复始,人类发展得非常缓慢。但是,当我们只有非常少的数据时,这是理所当然的结果。今天,我们有这么多的数据,难怪人类会不堪重负。但是,现在大数据可以提供帮助。如果人类不太善于消化这些过多的信息,大数据分析可以帮助我们将信息进行过滤,并进一步可视化,使我们能够轻松地加以使用。
人们尚未普遍具备与大数据时代相匹配的思维和技能
文汇报:有专家认为,大数据的未来是数据的APP(加速并行处理)而非基础构架;也就是说,仅仅有数据平台和基础构架是无法创造长期价值的。对此您怎么看?
迈尔-舍恩伯格:我们认为,大数据时代将至少需要和过去时代一样多的人的独创性。同时,巨大的资源才是未来时代的金矿,那些拥有这些数据资源的人将获得的回报是不可想像的。
文汇报:大数据时代,数据都是透明的,我们如何在保护个人隐私、商业机密和国家安全之间取得平衡?您所谓的“互联网遗忘运动”会是最佳药方吗?
迈尔-舍恩伯格:大数据时代所面临的挑战是,我们发现了隐藏在数据背后的价值,所以,保留这些数据,然后一遍遍地重复使用数据,往往成为一种明智的选择。同时,现行的保护个人隐私的法律,特别在西方,针对的是一个传统数据的世界,而不是一个大数据世界。这就需要我们在保护隐私的规则方面作出调整。我们建议,可以通过调整相关保护规则来实现这一目标,正像你所提到的,我们可以在一定时间以后,选择遗忘这些数据。
文汇报:大数据时代是一个海量数据有待处理的时代,同时又是一个海量无用信息需要删除的时代。这是否就是您在《删除》一书中强调我们要有所取舍的原因所在?
迈尔-舍恩伯格:是。在某种程度上,大数据本身也可以加强隐私的保护。因为如果有一百万个数据点,一个单独的数据点就不再那么重要了,这和传统数据时代非常不一样。随着时间的推移,忘记其中一些数据,并不会破坏整个大数据的运行和使用。
文汇报:大数据现在在全球究竟发展到了什么阶段?处理大数据的技术是否已经在全世界范围内普及?
迈尔-舍恩伯格:管理和处理大数据的技术都已经存在了,而且并不是非常昂贵。但是,有一样东西目前仍旧非常缺乏,那就是我们的思维——以理解数据背后所隐藏的巨大价值,以及提取这种价值的专门技能。今天,全球范围内,人们还没有普遍具备这种思维和技能,但是我相信,在未来,这种情况会发生改变。我们预计,世界各地的许多大学将提供针对大数据分析的课程,来培训大数据时代所需要的技能。
文汇报:历次产业技术革命,中国似乎都是学习者和模仿者;和上几轮产业技术革命不同的是,大数据时代,中国几乎和欧美发达国家同时开始技术研发,中国人口又居世界首位,将会成为产生数据量最多的国家。您看好中国在新时代的发展前景吗?中国在大数据时代是否有创新和领先的可能?
迈尔-舍恩伯格:是的,我们对此非常乐观。中国很可能成为大数据这一领域的先驱。在大数据时代,中国有很多优势:中国人都受过良好的教育,特别是在数学和统计方面(这是非常重要的)。中国是一个巨大的多元化社会,这会创造大量机会来创造大数据这一资源,并建立大数据应用。同样的道理,对于大数据的蓬勃发展,我们还需要相匹配的思维方式,有尝试新事物和持续创新的愿望,以实证事实来作为我们决策的依据。因此,和许多其他社会一样,大数据时代的确也会给中国带来非常大的变化。
以上是小编为大家分享的关于大数据时代带来更理性、更可靠的决策的相关内容,更多信息可以关注环球青藤分享更多干货
3. 大数据的历史
李娜再度夺得大满贯,超越了张德培的华人大满贯纪录,非举国体制下的奇迹造就了举国的愉悦。
在总结李娜成功因素的时候,也再次看到了这样的言论:是大数据起到了重要的作用。但这次李娜夺冠,最靠谱的解释就是李娜在卡洛斯的帮助下大大提升了心理层面的战斗力。
在技术层面领先的前提下,李娜在整场比赛中克服了节奏问题,她具备了一颗冠军的心脏。2012年9月6日,代表亚洲网球至高水平的中国选手李娜在美国迎战名将小威廉姆斯。
当时,IBM公司在综合了美网过去8年的全部比赛数据之后,为参赛球员制定了“Keys to the march”的比赛制胜策略。李娜一方获得赢球的关键包括3个指标:1.一发得分率超过69%;2.4-9拍相持中得分利率要超过48%:3.发球局30-30或40-40时得分率要超过67%。
比赛结果是,李娜溃败。比赛结束后,IBM高调地宣布李娜仅仅完成了三项制胜策略中的项,而小威廉姆斯则完成了自己三项制胜策略中的两项。
于是,很多人就顺着IBM的思路问,李娜为什么不照着BM的策略去打球?其实,当当事人的主观愿望不积极的时候,大数据对他们来说不过是噪音而已。同样,数据也会因为主观意愿具有欺骗性。
我们很多时候都会被误导,认为大数据的作用是让历史提示未来。其实不然。
在网球这样的领域里,历史数据甚至常常会成为陷阱。有意思的是,在另一场女子网球比赛中,一位球员做到了IBM为其制定的三项指标中的两个,她却失败了。
而胜利的一方,只完成了一个指标。
可按照时间点划分大数据的发展历程。
大数据时代发展的具体历程如下:2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。
Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapRece技术的高性能并行数据处理服务。
这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (puting munity Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。
它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。
2009年印度 *** 建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。同年,美国 *** 通过启动://Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的 *** 数据。
该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的 *** 们相继推出类似举措。2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。
2010年2月,肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。
从经济界到科学界,从 *** 部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:“大数据”。
库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。
后来 *** 认为这一刻为一个“大数据计算的胜利。” 相继在同年5月,全球知名咨询公司麦肯锡(McKinsey&pany)肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
报告还提到,“大数据”源于数据生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。2011年12 月,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月,美国奥巴马 *** 在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2012年3月22日,奥巴马 *** 宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中, *** 对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字 *** 体现对数据的占有和控制。
数字 *** 将是继边防、海防、空防之后,另一个大国博弈的空间。2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。
鉴于美国经济持续低靡、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立于2003年。
Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国 *** 如何利用大数据更好地服务和保护人民。
这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐。
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
它已经上过《 *** 》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。 数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《 *** 》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是 *** ,所有领域都将开始这种进程。”
。
大数据时代:最早提出大数据时代到来的是全球知名咨询公司麦肯锡, 大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
大数据提出的背景:进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《 *** 》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。正如《 *** 》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是 *** ,所有领域都将开始这种进程。” (3)经济学人大数据扩展阅读 大数据影响 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。
大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。 在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。
有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。
这些数据的规模是如此庞大,以至于不能用G或T来衡量。大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量)。
发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万…… 截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB) EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。
而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
而到了2020年,全世界所产生的数据规模将达到今天的44倍。 每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。
然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。这样的趋势会持续下去。
我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。
大数据的精髓 大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制); B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可。
适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力; C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大。
大数据是一种现代云基础架构,它包含了多种与其他人连接和共享信息的方法。它推动了“物联网”的发展,如通过社交网站连接人、通过共享朋友或网络来寻找人们之间互相认识的可能性。大数据的背后运行着人工智能,而它对于大多数人而言是完全透明的,人们不知道背后有这样的技术。大数据位于人们日常使用的智能手机之后,然后人们通过它给移动互联网贡献信息,即使他们并没有意识到这一点。
为什么大数据如此重要?
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
总结
在大数据时代到来的时候,要用大数据的思维去发掘大数据的潜在价值。大数据的意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。从前我们所了解的数据是冷冰冰的、死气沉沉的,被存到冷备份默默地等着人拿出来用,我们对待数据的感觉十分消极,要先想清楚其用处才开始分析应用。现在,数据时代来临了,人们正在试图点燃数据,使其变热,赋予生命。所谓“活数据”,是动态的数据,流通的数据,因互动而产生,因产生而互动,是自然演化的数据,要用大数据的思维去考虑这些数据怎样才能带来效益。未来大数据的发展前景非常好,与大数据相关的职业比如数据挖掘师,数据分析师等必定会有广阔的发展空间。
这个问题是这样的:
首先你要明确你的插入是正常业务需求么?如果是,那么只能接受这样的数据插入量。
其次你说数据库存不下了 那么你可以让你的数据库上限变大 这个你可以在数据库里面设置的 里面有个数据库文件属性 maxsize
最后有个方法可以使用,如果你的历史数据不会对目前业务造成很大影响 可以考虑归档处理 定时将不用的数据移入历史表 或者另外一个数据库。
注意平时对数据库的维护 定期整理索引碎片
4. 大数据三分钟演讲稿范文
大数据三分钟演讲稿范文(一)
大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。
Facebook
中国的大数据
大数据的特点:
具体来说,大灶野数据具有4个基本特征:
一是数据体量巨大。网络资料表明,其新首页导航每天需要提供的数据超过
1、5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
演绎历史仅需133天
二是数据类型多样。现在的数据类型不仅是文本形式,
更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。
数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
有用数据仅为3600分之一面临大数据时代的到来,你准备好了吗?
大数据时代到来
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
进入20XX年,大数据(bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
2、数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。正如《纽约时报》20XX年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
大数据应用案例:
1、医疗行业
在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
2、能源行业智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭困败安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这汪辩颤个预测后,可以降低采购成本。
3、通信行业
电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情,结合自己的经历,移动推出夜间流量包。
4、零售业
零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
大数据三分钟演讲稿范文(二)
既然说到大数据,就得先了解大数据地定义。什么是大数据。试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和,世界会发生什么呢?那么就先来看一些官方网站给出的大数据的定义。
为导出对事业起作用的数据。对于大数据商务有目的性的定义:“利用大数据解决经济和社会的问题。提高业务附加的价值。或者是支援事业”大数据不只指它的规模是多少,还有这些数据是由那些数据构成的,还有可以怎样利用大数据。由此是与到现在的系统是不同的。 用被卖出的数据基础管理工具或者是到现在为止处理数据的应用程序,来处理巨大困难的复杂数据集合,这样的词语。
再来看两个中文的。
那么大数据到底是啥。其实就是很多数据。它是把很多信息用数据的方式储存起来,然后不断累积,一直到这些数据大的没办法用简单进行利用。大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题:人类通常只使用了20%的大脑,如果剩余80%大脑潜能被激发出来,世界会变得怎样?在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?特别是随着海量数据的新摩尔定律,数据爆发式增长,然后数据又得到更有效应用,世界会怎么样呢?发挥想象去思考一下。
那么大数据是怎么形成的呢?
以前我们关注的都是交易系统和业务系统产生的数据,通过数据仓库去分析展现,其实终端,尤其是个人各种流水操作,例如购买物品清单,上网浏览历史,照片,微博等也有,但是不关注,而大数据时代,更多的是关注这些大量的数据,期望分析这些数据来发现价值,因此大数据其实以前在系统,终端,个人等等都在产生,只是没有加以利用而已,现在要分析这些数据从中发现价值。这才是大数据形成的原因和意义。数据再多,但如果被屏蔽或者没有被使用,也是没有价值的。中国的航班晚点非常多,相比之下美国航班准点情况好很多。这其中,美国航空管制机构一个的好做法发挥了积极的作用,说起来也非常简单,就是美国会公布每个航空公司、每一班航空过去一年的晚点率和平均晚点时间,这样客户在购买机票的时候就很自然会选择准点率高的航班,从而通过市场手段牵引各航空公司努力提升准点率。这个简单的方法比任何管理手段(如中国政府的宏观调控手段)都直接和有效。
先说一下这个打印的课本,它里面举了两个例子。对于福岛核电站的事,以及对于便利店的优势,都是利用了大数据。比如说超市,要进好多货,然后有的买的人少可能就堆积,即使减价处理也不一定能卖得掉,从而造成亏损。那么便利店,就会根据平时周围生活的人们来选择性的进货。在上班族公寓附近就多进快餐,在老年人或者中年人多一点的地方,就进一些生活用品。对于福岛核电站,如果将监测核电站的信息及时收集,并且分析就可能发现它有问题,可能会泄露,进而去解决问题避免损失。这就是预测未来可能发生的事故,这样的话可以有效的避免。再比如说,天文学家们研究天体的运动轨迹,发现更多的行星。将这些数据收集在一起就是大数据,对这些数据分析整理,就有可能计算出,未来某个行星可能会撞上地球。然后采取一些必要的措施,来将这种毁灭性的打击消除。如何认清现在呢?比如说在医学上,通过医疗设备对细胞进行观察,并根据其他测试进而推测出该细胞是不是癌细胞。如果把判断的依据变成数据化,输入到电脑中,并且再赋予她一定的学习能力,比如给他一个癌细胞,他会记住这些细胞的特征,久而久之,他的准确度会越来越高。在医学上的作用也会越快越明显。这就是对他的应用进行简单的了解。之后赵飞会更深入更仔细的讲一下这方面的内容。
那么,大数据对我们带来的都是好的么。不是的。就比如刚刚那个医学的例子。研究出的机器会让诊断癌细胞的工作人员逝去工作。就像是80年代工厂逐渐自动化一样,工人失业会
很严重。如果你是一匹马,那么你肯定不喜欢工业革命。
接下来说一下大数据现在面临的难题,就是如何利用好这些大数据,进而为人们服务,造福我们。就个例子就拿LSST来说。他是一个广域的天文望远镜,是由多个国家参与研发,现在在智利的一个山上,20XX年开始动工,并在20XX年启用查尔斯·西蒙尼和比尔·盖兹分别捐赠20XX万美金和1000万美金给LSST计划。LSST计划至今仍寻求美国国家科学基金会能拨发将近4亿美金的赞助费。。它每三天可以拍摄整个天一次。到20XX年,它会搭载一个超级数码相机,拍摄出的照片达到32亿像素。这样的照片需要1500块高清电视屏才能展示出来。LSST的照相机每年要拍摄超过人员所能分析的超过20万张影像。如果利用好了这些数据会是很大的一笔财富,但是目前还没有一个很有效的解决方法。没有那么多人力能去分析它,也没有那样的设备直接分析。所以这堆数据就是没用的数据,没有价值的。所以大数据是很有潜力的一门科学。接下来跟大家一起看一段TED的演讲视频。
演讲人是肯尼斯-库克耶《经济学人》数据我,曾任职于《华尔街日报》(亚洲版)和《国际先驱论坛报》。他是美国外交关系协会成员,CNN、BBC和NPR的定期商业和技术评论员之一。对大数据有很深的研究,听一下他是如何评价大数据的。看完这个演讲之后,在有请赵飞带来对大数据更深入的认识。
5. “大数据之父” 数据是创新的驱动力
“大数据之父”:数据是创新的驱动力
“有时候不一定是理念驱动世界的变化,可能是实实在在的数据,在数据的基础上产生理念,新的理念是创造性破坏的核心,而数据则是创新的驱动力。”“大数据之父”维克托·迈尔-舍恩伯格26日下午广州中山大学[微博]黄埔论坛上作《大数据时代的变革与创新》主题演讲时说。
作为牛津大学网络学院互联网治理与监管专业教授,舍恩伯格是开大数据系统研究先河的学者,《经济学人》曾评论说,在大数据领域,他是最受人尊敬的权威发言人。他有多达一百多篇论文发表在《科学》《自然》等著名学术期刊上,是《大数据时代》和《删除:大数据取舍之道》等畅销书的作者。
在当天的演讲中,舍恩伯格指出,我们尽其所能去观察这个世界,而这个观察的过程实际上就是一个搜集数据的过程。通过搜集数据,我们进一步理解数据,通过理解数据我们理解了世界。
搜集数据、分析数据需要花费大量的时间、精力、财力,舍恩伯格进一步说道:“我们是否可以搜集最有必要的数据,然后对这些数据进行挤压,从大量的数据中挤出最精华的东西来,然后在此基础之上进行意义的构建?也就是说,我们从大数据中可以提取小数据,数据对我们来说成为了一种可以应用的、有价值的资产。”
今天的世界变得如此广阔,其中所包含的信息海量的,过去20年中,我们数据的量翻了100倍,而且现在还在不断地增长,在短短的4年内世界已经从一个模拟化的世界变成了数字化的世界。
舍恩伯格表示,这一变化意味着我们要理解我们的生活方式,就必须从过去小数据的世界走入真正的大数据时代。我们要思考数据搜集的方法和机制,要从最需要的数据中来。对所搜集到的数据进行转化,成为了我们做出决策的一种最好方式。
他认为,数据的价值在于它可以循环使用、多次使用。“过去,人们对数据的使用只是冰山一角,只是有了问题才去搜集数据,然后分析数据,回答问题,然后把数据扔掉。”他指出,事实上,冰山下的那一块才是数据更大的价值所在,也是我们能够推动更多创新的地方。
他以特斯拉[微博]汽车、打车软件Uber以及谷歌[微博]曾经斥巨资收购的NEST等为例指出,这些产品取得巨大成功,不仅仅是因为他们产品本身,更在于他们都是一个数据收集平台,“这意味着你只要能够充分的使用信息,你就可以用数据来进行创新,进行突破,而且创造出一个新的环境。”
大数据给人们带来了一个全新的社会,大家都在使用大数据提高决策能力,然而,舍恩伯格也提醒人们,在分析数据、解释数据的时候,必须了解它的局限性,要非常小心,避免滥用数据。“问题不在数据本身,问题在我们对数据的使用上。
以上是小编为大家分享的关于“大数据之父” 数据是创新的驱动力的相关内容,更多信息可以关注环球青藤分享更多干货
6. 大数据时代读后感
《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。以下是这本书的读后感范文,欢迎阅读!
大数据时代读后感(一)
我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。这个命题是我读这本书最大的感触。个人认为也是这本书最核心的思想。从头说起吧,首先,书提出一个颠覆我以前认知的命题--”并非原子而是信息才是一切的本源“,将世界看做信息,看做可以理解的数据的海洋,为我们提供了一个从未有过的审视下是的视角。它是一种可以渗透到所有生活领域的世界观。这个命题是在书的最后一部分中的某一段中描写的。我之所以把它放在最前面来讲,因为我觉得,这是谈数据化世界的前提,自然也是谈论大数据的前提啦。书的中间部分有一节讲到数据化和数字化的区别。经过我自己脑子的整理,把数据化世界这个命题列为大数据思维的第二步。写到这里,我不由得反省下,我是不是有领悟到书的精髓所在(我认为的精髓),就是第一句话。因为回顾我整个思路,还是按照旧模式的因果关系思考模式思考问题。书中另一个吸引我的地方就是,有很多观点的论述,会从哲学的高度论述。虽然,自己肚子没多少墨水,但是读这些描述的时候,就会发现自己会更好的理解作者提出的命题。比如书中有一段文字
当我们说人类是通过因果关系了解世界时,我们指的是我们再理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。
在附上一些事例的时候,用作者提供的”本质“去看待时,很容易理解,确实是这么回事。好了,那么大数据到底改变了我们什么呢,作者给出3点,
大数据的精髓在于我们分析信息时的三个转变,这些转变讲改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(样本=总体)
第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。大数据告诉我们”是什么“而不是”为什么“。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
正如大家所知道的那样,人类的大脑具备这样的功能,它会把新输入的刺激或信息与”过去的经验或积累的部分知识“相对照,然后进行调整并接受下来。如果眼前新的现实与大脑中储存的固有信息无法协调,便会在无意识中拒绝接受新的现实(当作没有看见);或者通过自己一知半解的知识任意推测,使自己认识到的情况偏离实际(产生错觉)。这是人的一种本能,目的在于使自己保持冷静。
所以作者称之为revolution。
讲了这么多,那么大数据到底给我们带来什么。在这里,我只想谈我感触最深的,其他的有兴趣的可以自己去了解。当然,书中提了很多,最多的就是,XXX公司或者个人利用大数据创造了多大的财富了,抛开这些表面的不说,最让我动心亦或者是害怕的是---预测。这是大数据带来最核心的东西,动心的理由无须赘述,计算机会告诉你什么时候买什么双色球可以中头奖,想想心里是不是有一点小激动咧。当然这只是我打的一个比较夸张的比喻。至于害怕呢,书中有段话我很喜欢
公平正义的基础是人只有做了某事才需要对它负责,毕竟,想做而未做不是犯罪,社会关系于个人责任的基本信条是,人为其选择的行为承担责任。如果大数据分析完全准确,那么我们的未来会被精准的预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择的权利。既然我们别无选择,那么我们也就不需要承担责任。这不是很讽刺吗。
扯到这里,顺便扯一下,书中另一段关于自由意志的描述
在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果。而这个结果又是由其他原因导致的。以此循环往复,那么就不存在人的自由意志这一说了。——所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立。
书中举了个例子,举了部电影《少数派报告》,当我看到这里的时候,”哎哟,我居然看过这部电影,想想心里还是有点小激动“,有兴趣的可以去看下,大概就是讲警察通过预测来提前抓捕犯人,不过不是通过大数据,是通过超人类的方式。当你什么举动都可以被预测,相当于你完全暴露在太阳光下,换成你,你害怕不。
最后,附上两段结语,一段是书中的一段话,另一段是我自己瞎编的。
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
大数据终将会影响到我们,也像其他技术一样会是一把双刃剑,用得好,动心,滥用,害怕。如同核技术一样,用的话,造福地球,滥用,给个金刚石地球你,照样爆。我相信,未来的大数据的发展会如作者所说的,是一场生活、工作与思维的革命。
大数据时代读后感(二)
去年的“云计算”炒得热火朝天的,今年的“大数据”又突袭而来。仿佛一夜间,各厂商都纷纷改旗换帜,推起“大数据”来了。于是乎,各企业的CIO也将热度纷纷转向关注“大数据”来了。有一张来自《程序员》微博的漫画很形象。我觉得这张图,很真实地反映了现实中小企业云计算,大数据的现状。
不过话又还得说回来,《大数据时代》是本好书。
当然,很多IT知名人士也大力推荐,写了好多读后感来表述对这本书的喜欢没看此书之前,对所谓大数据的概念基本上是一头雾水,虽则有了解关注过现在也比较火热的BI,觉得也差不多,可能就是更多的数据,更细致的数据分析与数据挖掘。看过此书后,感觉到之前的想法,只能算是中了一小半吧---巨量的数据,而另一前:着眼于数据关联性,而非数据精确性,或许才是大数据与现时BI最大的不同,不仅仅是方法,更多的时思想方法。不过坦白讲,到底是数据的关联性重佳,还是数据的精确性更好,还真的需要时间来检验一下,至少从现在的数据分析方法来论,更多的倾向于数据的精确性。看完此书,我心中的一些问题:
1.什么是大数据?
查了查网络,是这样定义的:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的'的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity--这个好像是IBM的定义吧。
以个人的观点来看:数据海量,存储海量都是大数据的基本原型吧。
2.大数据适合什么样的企业?
诚然,大数据的前提是海量的数据,只有拥有巨量的数据资源,方能从中查找出数据的关联性,才可以让通过
专业化的处理,让其为企业产生价值。针对电信运营,互联网应用这样海量用户的数据的大企业,也是在应用大数据的道路上拥有得天独厚的条件,但是针对中小企业呢?销售订单数据?若非百年老店,估计数据也是少得可怜,5,能用的可能只有消费者数据了吧。貌似大多数厂商,用来举例的也就是消费都购买行为分析为最多。同样,在公共事业类的政府机构,大数据的作用也许也能很好的发挥。反而感觉在大多数中小型企业应用大数据,似乎有点大题小作。书中说:大数据是企业竞争力。诚然,数据是一个企业的核心无形资源(利用得好的话),但是否所有的数据,或都换则方式说:所有的企业都以大数据为竞争力,是否真的合适么?是否在中小企业中,会显示得小题大做呢?
3.大数据带来的影响
当一波又一波的IT技术热潮源源不断地向我们铺面而来的时候,你甚至都没有做好准备,你都要开始迎接它所给你带来的影响了。经过物联网,云计算的推波助澜下,大数据开始登场了。但它到底给我们带来了什么呢?
1)预测未来书中以Google成功预测了未来可能发生流感的案例来开篇,表明通过大数据的应用,可以为我们的生活起一个保驾护航的指向标。实质很简单,技术改变世界。
2)变革商业大数据所带来的商机,同时会衍生出一系列与大数据相关的商业机遇与商业模式,数据的潜在价值会源源不断地发挥作用可以容易想到的是未来有专门的数据收集,数据分析,数据生成的一条数据产业链产生。影响最大的,当然是IT公司
3)变革思维书中所说:因为有海量的数据作基础,未来,我们可能更关注数据的相关,而非精细度。对这条,本人还是持保留意见的。
大数据时代读后感(三)
如今说起新媒体和互联网,必提大数据,似乎不这样说就OUT了。而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典着作——舍恩佰格的《大数据时代》。维克托·迈尔——舍恩伯格何许人也?他现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人。他的咨询客户包括微软、惠普和IBM等全球顶级企业,他是欧盟互联网官方政策背后真正的制定者和参与者,他还先后担任多国政府高层的智囊。这位被誉为:大数据时代的预言家“的牛津教授真牛!那么,这位大师说的都是金科玉律吗?并不一定,读大师的作品一定要做些功课才好读懂,如果能做足功课又具备相应的理论功底,就能与之进行一场思想上的对话。
舍恩伯格分三部分来讨论大数据,即思维变革、商业变革和管理变革。在第一部分”大数据时代的思维变革“中,舍恩伯格旗帜鲜明的亮出他的三个观点:一、更多:不是随机样本,而是全体数据;二、更杂:不是精确性,而是混杂性;三、更好:不是因果关系,而是相关关系。对于第一个观点,我不敢苟同。一方面是对全体数据进行处理,在技术和设备上有相当高的难度。另一方面是不是都有此必要,对于简单事实进行判断的数据分析难道也要采集全体数据吗?我曾与香港城市大学的祝建华教授讨论过。祝教授是传播学研究方法和数据分析的专家,他认为一定可以找到一种数理统计方法来进行分析,并不一定需要全部数据。联系到舍恩伯格第二个观点中所说的相关关系,我理解他说的全体数据不是指数量而是指范围,即大数据的随机样本不限于目标数据,还包括目标以外的所有数据。我认为大数据分析不能排除随机抽样,只是抽样的方法和范围要加以拓展。
我同意舍恩伯格的第二观点,我认为这是对他第一个观点很好的补充,这也是对精准传播和精准营销的一种反思。”大数据的简单算法比小数据的复杂算法更有效。“更具有宏观视野和东方哲学思维。对于舍恩伯格的第三个观点,我也不能完全赞同。”不是因果关系,而是相关关系。“不需要知道”为什么“,只需要知道”是什么“。传播即数据,数据即关系。在小数据时代人们只关心因果关系,对相关关系认识不足,大数据时代相关关系举足轻重,如何强调都不为过,但不应该完全排斥它。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就消解了大数据的人文价值。如今不少学者为了阐述和传播其观点往往语出惊人,对旧有观念进行彻底的否定。
世间万物的复杂性多样化并非非此即彼那么简单,舍恩伯格也是这种二元对立的幼稚思维吗?其实不然,读者在阅读时一定要看清楚他是在什么语境下说的,不要因囫囵吞枣的浅读而陷入断章取义的误读。比如说舍恩伯格在提出”不是因果关系,而是相关关系。“这一论断时,他在书中还说道:”在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究的因果关系,找出背后的‘为什么’。“[i]由此可见,他说的全体数据和相关关系都在特定语境下的,是在数据挖掘中的选项。
大数据研究的一大驱动力就是商用,舍恩伯格在第二部分里讨论了大数据时代的商业变革。舍恩伯格认为数据化就是一切皆可”量化“,大数据的定量分析有力地回答”是什么“这一问题,但仍然无法完全回答”为什么“。因此,我认为并不能排除定性分析和质化研究。数据创新可以创造价值,这是毫无疑问的。舍恩伯格在讨论大数据的角色定位时仍把它置于数据应用的商业系统中,而没有把它置于整个社会系统里,但他在第二部分大数据时代的管理变革中讨论了这个问题。在风险社会中信息安全问题日趋凸显,数据独裁与隐私保护成为一对矛盾。如何摆脱大数据的困境?舍恩伯格在最后一节”掌控“中试图回答,但基本上属于老生常谈。我想,或许凯文·凯利的《失控》可以帮助我们解答这个问题?至少可以提供更多的思考维度。正如舍恩伯格在结语中所道:”大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。“谢谢舍恩伯格!让大数据讨论从自然科学回到人文社科。由此推断,《大数据时代》不是最终答案,也不是标准答案,只是参考答案。
此外,在阅读此书之前还必须具备一些数据科学的基本知识和基本概念,比如说什么叫数据?什么叫大数据?数据分析与数据挖掘的区别,数字化与数据化有什么不同?读前做些功课读起来就比较好懂了。
7. 大数据时代发展历程是什么
可按照时间点划分大数据的发展历程。
8. 大数据时代的变革思维
大数据时代的变革思维
信息时代,数据深刻影响着银行的未来发展。在全球庞大的人群和应用市场下,探索以大数据为基础的解决方案,深入洞察复杂且充满变化的市场成为了企业提高自身竞争力的重要手段。仅凭直观感受,任何人都能感觉到大数据时代已经来了。
维克托 迈尔舍恩伯格——《大数据时代》一书作者,牛津大学网络学院互联网研究所治理与监管专业教授,英国新闻周刊《经济学人》曾经将维克托迈尔-舍恩伯格定义为大数据领域最受人尊敬的权威发言人之一。2010年,维克托 迈尔舍恩伯格就已经开始对该领域进行了系统而深入的研究,并在《经济学人》上和数据编辑肯尼思库克耶一起,发表了长达14页的大数据专题文章,成为最早洞见大数据时代发展趋势的数据科学家之一。
大数据时代的思维变换
维克托 迈尔舍恩伯格在《大数据时代》中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
这本书的价值体现在三个方面:第一,关于大数据的思维变换,重在大数据变革时代的价值与观念变化;第二,关于大数据影响商业变革的三个要素:即数据、技术与创新思维之间的互动;第三,是关于大数据泛化下的治理与隐私。
与中国企业相比,美国企业知道大数据价值并且能挖掘大数据的隐藏价值,从而获得最大利益,可以说他们已经建立了大数据思维,从而促使他们不断创新挖掘更好的数据。“美国收集的数据要比我们多得多,他们不光搜集可以理解的数据,他们也收集不能理解的数据,并且会花大量资源来存储这些数据,让数据一直有价值。”在维克托迈尔舍恩伯格看来,大多数企业还把大数据作为一种在市场营销手段,但是大数据还可以帮助人们改变商业模式以及盈利模式,这才是大数据最大的价值所在。“美国与中国相比,最不同一点就在于他们有大数据思维,懂得如何利用大数据的价值,但这并不代表中国无法逾越美国,中国的优势在于掌握数据量比较大,而在大数据时代‘大’也是非常重要的。”
城市的发展需要大数据,没有数据的辅佐城市就不会得到最优化的发展方案,大数据能帮助政府领导者进行更好的决策,尤其是公共政策的决策。城市需要知道如何建立基础设施来收集数据,同时要利用大数据开拓思路,让数据来说话,并且借助多方力量,即便是大数据方面的专家,但是并不一定有最正确的决定或最有效的方法来利用大数据,所以政府在这方面需要多听取私人企业或机构的意见,大数据时代合作、沟通、广泛吸纳意见是非常重要的。
维克托 迈尔舍恩伯格以伦敦为例谈道:“伦敦政府其实是从一家私人企业买了关于人们交通模式的数据,让政府惊讶的是人们的行动路线跟他们想象的完全不一样,所以在这一方面的帮助他们更好的优化交通,包括高速公路、停车场,以减少城市拥堵。”
谁是大数据“赢家”?
大数据所面临困境并不在技术方面,而是在数据流动方面。大数据时代,一个人的智慧不能帮助我们更好的利用大数据价值,所以要让数据流动起来,让不同的部门和不同的公司都参与进来,进而优化数据。
“更多的人会认为大数据只是用在企业营销方面,但是如果让他们知道大数据可以帮助孩子更好的学习、更好的生活居住条件,以及能够解决城市交通、居住等问题,他们慢慢发现大数据的好处,他们就会关心大数据。”维克托迈尔舍恩伯格谈道,“一方面,人们要信任大数据,不要害怕大数据暴露隐私,需要建立完善的大数据保护。不信任就导致人们不愿意让其他机构知道数据,如果不能使用这些数据就更谈不上大数据的价值。所以只有让他们信任数据,才能挖掘大数据价值。另一方面,一定要接受大数据使用限制问题,不要赋予大数据过多的意义。”
维克托 迈尔舍恩伯格理解的大数据赢家,并不是指本来就已经很成功而且在大数据时代同样成功的的公司,“我认为大数据的最大赢家应该是一些默默无闻的公司,因为大数据而发生飞跃性的变化,所以大数据时代最大赢家不可能是那些已经掌握大量数据的大公司,而是新兴创业、年轻人来工作的小公司,帮助他们在大数据时代成为非常有竞争力的企业。所以数据好比一座金山,但是数据在那里放着,这座金山就不会属于你,我们需要做的是了解并挖掘这些‘金子’,成为大数据的赢家。”维克托迈尔 舍恩伯格如是说。
大数据是看待现实的新角度,不仅改变了市场营销、生产制造,同时也改变了商业模式。数据本身就是价值来源,这也就意味着新的商业机会,没有哪一个行业能对大数据产生“免疫能力”,适应大数据才能在这场变革中继续生存下去。