㈠ 详解大数据的思想如何形成与其价值维度
详解大数据的思想如何形成与其价值维度
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,网络是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:
再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。
再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobody wants to be nobody today。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。
对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。
再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事网络迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对网络迁徙图解读是可能陷入误区的。
第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。
晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的。
㈡ 大数据的历史
李娜再度夺得大满贯,超越了张德培的华人大满贯纪录,非举国体制下的奇迹造就了举国的愉悦。
在总结李娜成功因素的时候,也再次看到了这样的言论:是大数据起到了重要的作用。但这次李娜夺冠,最靠谱的解释就是李娜在卡洛斯的帮助下大大提升了心理层面的战斗力。
在技术层面领先的前提下,李娜在整场比赛中克服了节奏问题,她具备了一颗冠军的心脏。2012年9月6日,代表亚洲网球至高水平的中国选手李娜在美国迎战名将小威廉姆斯。
当时,IBM公司在综合了美网过去8年的全部比赛数据之后,为参赛球员制定了“Keys to the march”的比赛制胜策略。李娜一方获得赢球的关键包括3个指标:1.一发得分率超过69%;2.4-9拍相持中得分利率要超过48%:3.发球局30-30或40-40时得分率要超过67%。
比赛结果是,李娜溃败。比赛结束后,IBM高调地宣布李娜仅仅完成了三项制胜策略中的项,而小威廉姆斯则完成了自己三项制胜策略中的两项。
于是,很多人就顺着IBM的思路问,李娜为什么不照着BM的策略去打球?其实,当当事人的主观愿望不积极的时候,大数据对他们来说不过是噪音而已。同样,数据也会因为主观意愿具有欺骗性。
我们很多时候都会被误导,认为大数据的作用是让历史提示未来。其实不然。
在网球这样的领域里,历史数据甚至常常会成为陷阱。有意思的是,在另一场女子网球比赛中,一位球员做到了IBM为其制定的三项指标中的两个,她却失败了。
而胜利的一方,只完成了一个指标。
可按照时间点划分大数据的发展历程。
大数据时代发展的具体历程如下:2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。
Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapRece技术的高性能并行数据处理服务。
这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (puting munity Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。
它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。
2009年印度 *** 建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。同年,美国 *** 通过启动://Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的 *** 数据。
该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的 *** 们相继推出类似举措。2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。
2010年2月,肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。
从经济界到科学界,从 *** 部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:“大数据”。
库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。
后来 *** 认为这一刻为一个“大数据计算的胜利。” 相继在同年5月,全球知名咨询公司麦肯锡(McKinsey&pany)肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
报告还提到,“大数据”源于数据生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。2011年12 月,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月,美国奥巴马 *** 在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2012年3月22日,奥巴马 *** 宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中, *** 对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字 *** 体现对数据的占有和控制。
数字 *** 将是继边防、海防、空防之后,另一个大国博弈的空间。2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。
鉴于美国经济持续低靡、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立于2003年。
Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国 *** 如何利用大数据更好地服务和保护人民。
这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐。
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
它已经上过《 *** 》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。 数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
正如《 *** 》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是 *** ,所有领域都将开始这种进程。”
。
大数据时代:最早提出大数据时代到来的是全球知名咨询公司麦肯锡, 大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
大数据提出的背景:进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《 *** 》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。正如《 *** 》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是 *** ,所有领域都将开始这种进程。” (2)奥巴马认为大数据扩展阅读 大数据影响 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。
大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。 在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。
有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。
这些数据的规模是如此庞大,以至于不能用G或T来衡量。大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量)。
发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万…… 截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB) EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。
而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
而到了2020年,全世界所产生的数据规模将达到今天的44倍。 每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。
然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。这样的趋势会持续下去。
我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。
大数据的精髓 大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制); B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可。
适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力; C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大。
大数据是一种现代云基础架构,它包含了多种与其他人连接和共享信息的方法。它推动了“物联网”的发展,如通过社交网站连接人、通过共享朋友或网络来寻找人们之间互相认识的可能性。大数据的背后运行着人工智能,而它对于大多数人而言是完全透明的,人们不知道背后有这样的技术。大数据位于人们日常使用的智能手机之后,然后人们通过它给移动互联网贡献信息,即使他们并没有意识到这一点。
为什么大数据如此重要?
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
总结
在大数据时代到来的时候,要用大数据的思维去发掘大数据的潜在价值。大数据的意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。从前我们所了解的数据是冷冰冰的、死气沉沉的,被存到冷备份默默地等着人拿出来用,我们对待数据的感觉十分消极,要先想清楚其用处才开始分析应用。现在,数据时代来临了,人们正在试图点燃数据,使其变热,赋予生命。所谓“活数据”,是动态的数据,流通的数据,因互动而产生,因产生而互动,是自然演化的数据,要用大数据的思维去考虑这些数据怎样才能带来效益。未来大数据的发展前景非常好,与大数据相关的职业比如数据挖掘师,数据分析师等必定会有广阔的发展空间。
这个问题是这样的:
首先你要明确你的插入是正常业务需求么?如果是,那么只能接受这样的数据插入量。
其次你说数据库存不下了 那么你可以让你的数据库上限变大 这个你可以在数据库里面设置的 里面有个数据库文件属性 maxsize
最后有个方法可以使用,如果你的历史数据不会对目前业务造成很大影响 可以考虑归档处理 定时将不用的数据移入历史表 或者另外一个数据库。
注意平时对数据库的维护 定期整理索引碎片
㈢ 大数据发展的三个必要条件
大数据发展的三个必要条件_数据分析师考试
近年来,关于大数据的讨论在技术、应用和模式等多个层面展开,已被认为代表着产业发展的方向。但与互联网公司的诸多实践相比,被认为具有数据资源先天优势的电信运营商却走在了后面,即便放眼全球,电信运营商的大数据应用案例也是屈指可数。移动宽带和固网宽带快速发展、OTT的强势崛起决定了电信运营商必须充分利用自身掌握的数据资源,另辟蹊径,从而实现网络价值的最大化。因此,电信运营商应用大数据是必然的,而且市场前景十分广阔。
为了加快大数据的“落地”步伐,帮助业界各方特别是电信运营企业更好地了解大数据,认清大数据战略发展的重要性,分析发展道路上面临的难题和障碍,促进大数据产业链的成熟,推动大数据的应用推广。从今天开始,《人民邮电》报特邀来自中兴通讯、电信研究院以及三大运营商等单位的专家,推出“掘金大数据”系列报道,以飨读者。
大数据概念的横空出世,有赖于短短几年出现的海量数据。据统计,互联网上的数据每两年翻一番,而目前世界上90%以上的数据都是最近几年才产生的。当然,海量数据仅仅是“大数据”概念的一部分,只有具备4个“V”的特征,也就是Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值),大数据的定义才算完整,而最后一个Value(价值),恰恰是决定大数据未来走向的关键。
大数据发展的三个必要条件
大数据的发展需要三方面的必要条件:数据源、数据交易、数据产生价值的过程。近年来,社交网络的兴起、物联网的发展和移动互联网的普及,微信、微博、智能手机、电商大行其道,诞生了大量有价值的数据源,比如位置、生活信息等数据,数据源的出现奠定了大数据发展的基础。大数据时代到来的重要标志,则是大批专业级“数据买卖商”的出现,以及围绕数据交易形成的贯穿于收集、整理、分析、应用整个流程的产业链条。大数据发展的核心,则是使用户从海量的非结构化数据和半结构化数据中获得新的价值,数据价值是带动数据交易的原动力。
IBM、甲骨文、SAP近年纷纷斥巨资收购数据管理和分析公司,在这些互联网巨头的带动下,数据分析技术日渐成熟。2013年6月,爱德华·斯诺登将“棱镜”计划公之于众,“棱镜门”事件一方面说明大数据技术已经成熟,另一方面也佐证了现在阻碍大数据发展的不是技术,而是数据交易和数据价值。
大数据技术的发展促进了云计算的落地,云计算的部署完成又反过来加大了市场对数据创造价值的期待。大数据概念提出之后,市场终于看到了云计算的获利方向,云计算市场仿佛在一夜之间爆发,在过去一两年间几乎已经被国内大方案商、大集成商瓜分殆尽——各地的一级系统集成商与当地政府合作,建云数据中心,建智慧城市;各大行业的巨头们在搭建各自行业的混合云标准,搭建行业云平台;公有云也来了,各大IT巨头想尽办法申请中国的公有云牌照。云计算从概念到落地用了5年时间,最终促成这一切的就是大数据,或者说是市场对数据价值的期待。借助于国内智慧城市概念的大规模普及,云计算基础设施已基本准备就绪,一方面具备了大数据应用的硬件基础,另一方面迫于回收云计算投资的压力,市场急需应用部署,大数据恰如雪中送炭,被市场寄予厚望。
现在,一切的矛头都指向了“数据如何创造价值?”
56数据创造价值的基石6是数据整合和开放
大数据服务创业公司Connotate对800多名商业和IT主管进行了调查。结果显示,60%受调查者称“目前就说这些大数据投资项目肯定能够带来良好回报尚为时过早”。之所以如此,是由于当前大数据缺乏必需的开放性:数据掌握在不同的部门和企业手中,而这些部门和企业并不愿意分享数据。大数据通过研究数据的相关性来发现客观规律,这依赖于数据的真实性和广泛性,数据如何做到共享和开放,这是当前大数据发展的软肋和需要解决的大问题。
2012年美国大选奥巴马因数据整合而受益。在奥巴马的竞选团队中有一个神秘的数据挖掘团队,他们通过对海量数据进行挖掘帮助奥巴马筹集到10亿美元资金;他们通过数据挖掘使竞选广告投放效率提升了14%;他们通过制作摇摆州选民的详细模型,每晚实施6.6万次模拟选举,推算奥巴马在摇摆州的胜率,并以此来指导资源分配。这个数据挖掘团队,对奥巴马成功连任功不可没。奥巴马竞选团队相比罗姆尼竞选团队最有优势的地方就是对大数据的整合。奥巴马的数据挖掘团队也意识到这个全世界共同的问题:数据分散在过多的数据库中。因此,在前18个月,奥巴马竞选团队就创建了一个单一的庞大数据系统,可以将来自民意调查者、捐资者、现场工作人员、消费者数据库、社交媒体,以及“摇摆州”主要的民主党投票人的信息整合在一起。这个整合后的巨大数据库不仅能告诉竞选团队如何发现选民并获得他们的注意,还帮助数据处理团队预测哪些类型的人有可能被某种特定的事情所说服。正如竞选总指挥吉姆·梅西纳所说,在整个竞选活中,没有数据做支撑的假设很少存在。
2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,将大数据研究上升为国家意志,对大数据的整合带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分。国内智慧城市的建设目标之一就是实现数据的集中共享。
数据创造价值需要合作共赢的商业模式
随着云计算、大数据技术和相关商业环境的不断成熟,越来越多的“软件开发者”正在利用跨行业的大数据平台,打造创新价值的大数据应用,而且这一门槛正在不断降低。因为首先,数据拥有者乐于做这样的事情,他们能够以微乎其微的成本获取额外的收入,提高利润水平;其次,大数据设备厂商乐于做这样的事情,因为厂商需要应用来吸引消费者购买设备,发展合作共赢的伙伴关系势必比单纯销售设备要有利可图,一些具有远见的厂商已经开始通过提供资金、技术支持、入股等方式来扶持这些“软件开发者”;第三,行业细分市场的数据分析应用需求在不断加大,对于整个大数据产业链来说,创新型的行业数据应用开发者必将是未来整个大数据产业链中最为活跃的部分。
在必然到来的大数据时代,有三种企业将在“大数据产业链”中处于重要地位:掌握海量有效数据的企业,有着强大数据分析能力的企业,以及创新的“软件开发者”。社交网络、移动互联网、信息化企业、电信运营商都是海量数据的制造者,Facebook公司手中掌握着8.5亿用户,淘宝注册用户超过3.7亿,腾讯的微信用户突破3亿,这些庞大用户群所提供的数据,正在等待时机释放出巨大的商业能量。可以预测,在不久的将来,Facebook、腾讯、电信运营商等海量数据持有者要么自我发展成为数据分析提供商,要么与IBM、ZTE等企业密切对接成为上下游合作企业,大数据产业链将在某个爆发点到来之际,以令人惊讶的速度成长壮大。
警惕大数据的危害
大数据时代,传统的随机抽样被“所有数据的汇拢”所取代,人们的思维决断模式,已可直接根据“是什么”来下结论,由于这样的结论剔除了个人情绪、心理动机、抽样精确性等因素的干扰,因此将更精确、更有预见性。不过,由于大数据过于依靠数据的汇集,一旦数据本身有问题,就很可能出现“灾难性大数据”,即因为数据本身的问题,而导致错误的预测和决策。
大数据的理论是“在稻草堆里找一根针”,而如果“所有稻草看上去都挺像那根针”呢?过多但无法辨析真伪和价值的信息和过少的信息一样,对于需要作出瞬间判断、一旦判断出错就很可能造成严重后果的情况而言,同样是一种危害。大数据理论是建立在“海量数据都是事实”的基础上,而如果数据提供者造假呢?这在大数据时代变得更有害,因为,人们无法控制数据提供者和搜集者本人的偏见与过滤。拥有最完善数据库、最先接受“大数据”理念的华尔街投行和欧美大评级机构,却每每在重大问题上判断出错,这本身就揭示了“大数据”的局限性。
不仅如此,大数据时代造就了一个数据库无所不在的世界,数据监管部门面临前所未有的压力和责任:如何避免数据泄露对国家利益、公众利益、个人隐私造成伤害?如何避免信息不对等,对弱势群体的利益构成伤害?在有效控制风险之前,也许还是让大数据继续待在“笼子”里更好一些。
大数据的经济价值已经被人们所认可,大数据的技术也已经逐渐成熟,一旦完成数据的整合和监管,大数据爆发的时代即将到来。我们现在要做的,就是选好自己的方向,为迎接大数据的到来,提前做好准备。
以上是小编为大家分享的关于大数据发展的三个必要条件的相关内容,更多信息可以关注环球青藤分享更多干货
㈣ 大数据时代发展历程是什么
可按照时间点划分大数据的发展历程。
㈤ 哪一年 奥巴马 将大数据上升为国家意志
2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。
㈥ 美国总统奥巴马宣布启动"大数据研究和发展计划是哪一年
2011年初,美国政府发布了《美国创新战略:确保美国经济增长与繁荣》报告。该报版告不仅对奥巴马上任以权来美国政府采取的所有创新举措进行了系统归纳,同时也对美国未来科技发展做出了战略规划和部署。这意味着美国已经将创新的重心转移到促进经济增长与繁荣,以创新“赢得未来”。
㈦ 人类进入数据化生存时代 大数据蕴含大价值
人类进入数据化生存时代 大数据蕴含大价值_数据分析师考试
移动互联技术的普及,将每一个人都纳入到互联网之中,并随之产生海量的数据。那么,这些数据意味着什么,对人类有何价值?这就是当前计算机领域最热门的“大数据”研究。10月20日,中国计算机学会大数据专家委员会成立,在随后的“大数据”论坛上,与会嘉宾认为,人类已经进入了一个“数据化生存”的时代,“大数据”中蕴含着巨大的价值,并且已经在日常生活中发挥着潜移默化的作用。
据经济之声《天下财经》报道,“数据”是什么?数据就是资源,它像空气和水、石油和煤炭一样,就在你的周围自然而然的存在着,你每一次点击鼠标,每一次刷卡消费,其实就已经参与到了数据的生成,可以说,每一个人既是数字的生产者,也是数据的消费者。英国帝国理工学院教授、海量数据分析专家郭毅可就是这种理念的坚定支持者。
郭毅可:以前数据不是人类的资源,现在数据是一种自然资源,和水、油、气一样,没有数据不能生活,这就是数据。
其实,数据一直存在,但为什么现在人们会如此重视它?美国罗格斯-新泽西州立大学商学院教授熊晖认为,这是因为当前的技术手段为“大数据”的收集和分析提供了保障。
熊晖:现在这个大数据,我们第一次有了这么精细的观测手段,比如说,以前我们不可能知道每一个人的地理信息,现在我可以非常精细的知道你每时每刻在什么地方出现,然后就可以产生非常精细化的数据,可以用来描述人、社会和整个环境的行为,这些东西我们了解的更深了,可以帮助我们减少社会的复杂度。
今年3月,美国奥巴马政府宣布了“大数据研究和发展计划”,并设立了2亿美元的启动资金,希望增强收集海量数据、分析萃取信息的能力,认为这事关美国的国家安全和未来竞争力,鼓励大学培养下一代的“大数据科学家”。
如果抛开政府行为,“大数据”分析其实早已经在商业领域大显身手。金蝶国际软件集团首席科学家张良杰介绍,他们参与搭建的全国中小企业信息平台,上面汇集了4000万家企业,通过对这些企业海量数据的挖掘和分析,能够对经济运行状况做出准确的预警,有助于国家相关部门做出应对决策。此外,张良杰还举例说,在微观经济领域,“大数据”的作用也越发凸显。
张良杰:(美国一家公司)把天气预报的信息和数据,利用跟天气相关的大数据,在亚马逊的云平台上做处理,然后可以帮助农业的种植者能够很好地保障他们的收益。另外一个领域就是在企业的管理上,大数据可以帮助他们做决策。
在金融领域,“大数据分析”早已经成为一种流派,在美国华尔街,对冲基金、股票分析、高频数据交易等领域,数据分析师都是最抢手的人才;在中国,阿里巴巴旗下的金融业务,也开始利用电子商务数据来发放“信用贷款”,发展势头迅猛。
中科院虚拟经济与数据科学研究中心副主任石勇,是人民银行征信系统的建立者之一,他介绍,“征信系统”也是大数据的一种应用,是一个国家金融业务开展的基础。
石勇:在座的每一个人在银行做的任何事,包括在ATM上取钱,数据都在里面,现在各个商业银行都在用你们的信用评分(这个模型就是我们算出来的)来做贷款处理,这个重要性就不用讲了,美国引发次贷危机的三大指标之一就是信用评分,我们连信用评分都没有,怎么把经济工作搞好?
还有学者预测,谁拥有了数据以及对数据的发掘能力,谁就将占领下一个十年全球经济发展的制高点。但是目前,我国大数据应用刚刚起步,基于大数据的商业模式还在萌芽阶段,从需求来看,很多产业对大数据的使用还没有意识,而供给一方,由于技术和人才储备上的落后,也缺乏深厚的数据分析手段来支撑需求。
此外,在制度层面,中国工程院院士、中国计算机学会大数据专家委员会主任李国杰提醒,当前我国大量的基础数据掌握在政府部门手中,今后要想不输在起跑线上,政府部门就要有更开放的姿态分享手中的数据。
李国杰:政府部门的数据共享一直是个软肋,国外有数据公开法等法律的规定,政府采购的信息要共享等等,相对来说执行的比价好,而中国由于部门的色彩(比较重),这些大数据怎么共享利用这是要解决的大问题,也呼吁政府要尽快实现数据的共享,实现数据的开发。
以上是小编为大家分享的关于人类进入数据化生存时代 大数据蕴含大价值的相关内容,更多信息可以关注环球青藤分享更多干货
㈧ 大数据应用现状 从发现价值到创造价值
大数据应用现状:从发现价值到创造价值
从发现价值到创造价值, 大数据将成为“互联网+” 产业升级的驱动力。 过去,数据的价值主要应用在决策领域,典型应用是商业智能(BI, Business Intelligence)在企业经营管理层面的应用, 即通过数据收集、管理和分析等方法,将数据转化为知识, 发现数据的价值,进而提供决策支持。随着数据体量的不断增加和处理数据能力的提升, 大数据已经成为一类新的资产, 其应用场景正在不断扩宽,除了决策支持、 提高效率等发现价值功能之外,大数据还能创造价值的功能: 一方面,大数据可以帮助提供传统模式下所无法提供的产品, 满足用户需求, 例如大数据完善个人征信体系,帮助金融机构提供消费金融产品;又如千方旗下的掌城科技通过浮动车模型提供实时交通信息服务;另一方面,大数据还可以创造需求, 例如,大数据可以助力实现人工智能, 这是新技术创造的新需求。
大数据延伸 BI 内涵, 提高企业效率
大数据分析结果为企业经营决策提供支持,帮助企业提高效率,这实际上是传统 BI 范畴的延伸。 在人口红利逐渐消失的背景下, 我国企业传统的粗放型模式受到了 越来越大的挑战, 互联网与产业结合背景下的大数据应用将有助于提升企业经营管理效率,助力企业经营从粗放型向集约型转型, 实现产业升级。
大数据促进商业智能的加速发展,这是因为:第一,大数据的分析过程和结果更具有灵活性、可靠性和价值性;第二,大数据的存在提高了企业的商业智能意识, 引导企业主动寻求商业智能的帮助。一些大型企业往往拥有几十个甚至数百个信息系统,其所包含的大量数据反映了企业的日常经营情况,若能加以分析和利用,将为企业创造巨大的价值。
目前,大数据应用可以帮助企业实现户关系管理、盈利能力分析、控制成本、衡量绩效等功能:
客户关系管理(CRM):通过客户信息统计,使企业有针对性的根据客户需求来定制产品和服务,提高客户忠诚度,还可以通过分析偏好挖掘潜在客户;
赢利能力分析:帮助企业分析利润来源、各类产品赢利能力、费用支出是否与销售成正比等;
控制成本:根据统计信息优化流程,如降低库存、减少损耗等,助于企业控制成本;
绩效管理:利于商业智能确立对员工的期望,帮助他们跟踪并管理其绩效。
麦肯锡调查显示, 数据挖掘的商业价值巨大, 大数据在美国医疗行业每年能提高 0.7%的生产力,创造约 3000 亿美元的价值;在欧洲公共管理部门 ,每年能提高 0.5%的生产力,创造 2500 亿欧元的价值;在美国零售业,每年能提高 0.5%-1.0%的生产力 和 60%的净利率。
大数据满足需求, 市场空间巨大
大数据可以帮助提供过去所无法提供的产品, 满足用户需求。 这种模式在传统产业中比较常见, 过去,一些行业的用户需求虽然存在, 但是由于缺乏有效的技术手段,导致市场参与者无法提供合适的产品迎合市场需求。大数据技术兴起后,将带动一系列创新产品推出市场, 这在各行各业都能找到案例,考虑到传统产业的广度,这将是是一个正在挖掘的巨大市场。
以交通领域的实时交通信息服务和车险定价为例,这两个细分领域的需求本来就存在,但在大数据兴起之前,传统模式无法提供最优的产品,而大数据技术下的产品优化可以更好的满足需求,提高用户体验。
千方科技旗下掌城科技通过大数据技术提供实时交通信息服务。 掌城科技通过向出租车公司和公交车公司购买数据、 向政府部门臵换数据、利用千方自有数据的形式汇集城际交通数据, 基于浮动车的算法模型,对数据进行二次开发,以建立实时交通信息服务平台。 目前, 掌城科技运营着北京、上海等全国 30 余个大中城市的实时路况信息,准确率极高。 目前,千方已将交通数据收集从城际交通扩大至整个陆路交通和航空等领域,目标通过大数据技术提供更加全面的公众智慧出行服务。
大数据技术将参与车险定价,使定价更加科学。随着车联网的兴起,OBD(On-BoardDiagnostic车载诊断系统)等联网的车载设备,成为车联网中的智能节点,连接运动中的人、车和道路环境,读取行车数据,从而分析出车辆能耗、故障等车况信息以及驾驶者的行车习惯:通过G-sensor监测车主的诸如急刹车、急加速和急转弯等危险行为,通过破解Can-bus协议监测车主的诸如转弯不打灯、驻车不拉手刹等不良驾驶习惯,通过GPS获取车辆的位臵信息和里程数据,这些数据将改善车险定价技术与核保政策,提升精准定价能力。
大数据创造需求,拓宽市场边界
大数据创新产品拓宽市场边界, 供给创造需求。 大数据创造价值功能, 除了提供产品满足市场已经存在的需求外, 基于大数据的新产品还将创造新供给,带动新需求, 打破原有的市场边界,想象空间巨大:
一方面大数据能够前所未有的精准洞悉现在,深入挖掘现有商业价值:
例如 Airbnb 拥有海量的独有数据,包括旅游地、用户评论、房源描述、社区信息等, Airbnb还有一支队伍去各地和当地人交流,搜集所有的相关历史数据。当用户在搜寻一个住宿的地方时, Airbnb 利用大数据分析通过 Airbnb 社区告诉未来的客人哪里是更好的住宿地,甚至能够帮助用户更深入地了解某个地点,包括地理信息无法描述的文化或宗教上的区分。 Uber 则是利用地理位臵和其用户的综合数据,大大缩短司机开着空车去接下一位乘客的时间和乘客等待的时间。
另一方面大数据能够空前准确的预测未来,从而能获得前瞻性的商业价值:
例如社交数据分析公司 Topsy 准确预测了 iPhone 4S 上市后的市场表现,同时还成功预测美国大选结果和奥斯卡颁奖结果。它在商业分析、市场销售、新闻等领域拥有很高价值,因而苹果以 2 亿多美元的价格收购 Topsy。
大数据产业链分析
大数据产业链的主要参与方
大数据产业链可以分为四个部分: 数据采集和整合、数据存储和运算、数据分析和挖掘、数据应和消费。数据采集和整合是指通过技术手段从互联网、 移动终端、 物联网、 应用软件等采集数据,然后把数据按照一定的规则进行存储和运算,再按照需求调用数据并进行智能分析和挖掘,将数据转化成价值信息或者产品,为决策支持、提升效率、 创新产品提供依据。
数据资产开始成为核心资源
拥有数据,大数据时代的王者。在大数据时代, 数据资产已经成为核心资源, 2012 年,奥巴马政府明确提出 将“大数据战略”上升为国家意志,并将数据定义为“未来的新石油”, 因此,拥有数据可谓是大数据时代的王者。 拥有数据的机构可以分为三类:
一是既有数据、 又有大数据思维的互联网公司,如阿里巴巴、腾讯、京东、 Google、 Amazon等,在互联网端积累了大量的数据资源,而且此类公司 IT 起家, 对大数据有天生敏锐的嗅觉, 大数据技术也相对成熟, 因此,互联网公司 可谓是最早使用大数据的机构,成为大数据应用的先行者;
二是传统软件公司转型互联网,通过 SaaS 模式为用户提供服务, 例如用友软件推出畅捷通,以云模式为小微企业提供财务管理应用, 也可以认为是既有数据、 又有大数据思维的模式;
三是拥有数据,缺乏大数据思维的机构,这类机构手里掌握着大量的数据,但是没有能力自己有效利用, 例如金融机构、 运营商、政府部门等。
使用数据,数据变现的推动者。对于手里掌握大量数据,但没有能力变现的机构而言,需要专业的第三方公司提供大数据服务,主要是各类 IT 咨询机构和行业应用软件厂商,尤其是行业应用软件厂商, 在各自的领域具有天然的卡位优势: 软件公司提供了行业应用软件和相关的运营维护, 行业应用软件本身就是重要的数据来源,软件公司 属于不拥有数据,但可以接触到数据的机构, 且天然拥有大数据思维和大数据技术,以及良好的行业客户关系,从信息系统建设延伸到大数据运营顺理成章。因此,各个细分行业的应用软件提供商有望成为传统拥有数据机构的重要合作伙伴, 助力其探索大数据价值变现。
大数据技术是重要生产力
大数据应用好坏的关键除了 数据本身,还在于大数据技术, 大数据技术包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现等环节,涉及的技术环节极广, 随着数据体量增大和数据复杂性程度提高,大数据技术本身也处于快速迭代的发展过程中。值得一提的是,大数据技术落地的一大重要因素在于如何实现技术与业务的融合, 这背后需要深厚的业务理解, 对于既有数据、 又有大数据思维的互联网公司 来说,技术和业务本身是相互驱动、共同发展的, 对于拥有数据,缺乏大数据思维的机构而言, 在行业深耕多难的应用软件提供商则是最好的选择。
以上是小编为大家分享的关于 大数据应用现状 从发现价值到创造价值的相关内容,更多信息可以关注环球青藤分享更多干货
㈨ 大数据时代,人类生活面临颠覆
大数据时代,人类生活面临颠覆
对于IT领域来说,最近有很多非常新的概念,比如云计算、物联网,当大家刚刚对这些概念开始有清晰的认知时,又一个全新概念出现了——大数据。什么是大数据?大数据概念究竟指向何方,大数据背后能怎样改变我们生活?会不会给我们的生活和工作带来困扰?
本报与第一财经头脑风暴节目合作探讨大数据时代下的问题。参与这次讨论的嘉宾有大数据概念的提出者、牛津大学教授维克托·迈尔·舍恩伯格,微软亚太研发集团、云计算操作系统首席架构师徐明强,上海市信息化专家、专业委员会专家、复旦大学计算机学院院长王晓阳,科尔尼管理咨询全球合伙人孙健,复旦大学现代哲学研究所所长俞吾金,启明创投合伙人童士豪,著名财经评论员石述思。
1 到底什么是大数据?
维克托:我认为它就是新黄金,我觉得是21世纪最主要的资源,这种资源对社会、企业、个人是否能成功,还是会受苦受难有着很重要的作用。解释一下,虽然此前我们都有数据,可把它们整理在一起然后分析是非常昂贵的,因此我们更多的注意力都放在了实体资源上,就是真正的黄金、金块,像劳动力这种资源。但只有最近我们才靠人的知识、创新来创造财富,更靠前一步,我们可以根据数据来进行,因为数据收集以及分析,成本上升的程度都已经改变了,然后我们的数据就可以达到一定规模。最后,大家所寻求的不管你是一个人、一个公司、一个组织,还是这个社会,无外乎就是这种所谓的新黄金。
为什么最近黄金的价值会跌得很厉害?因为老黄金不值钱了,没有新黄金有价值。
童士豪:我的观点有点类似,第一个是云,第二个是关系,第三个是未来。像刚才维克托先生提到的,因为云时代到了,储存的大量数据的成本非常低,所以能让大家去利用大数据做工作分析,最近由于很多事情的关系,有更多的关系被理解,所以能去预测未来状况。用自己的话说,就是在聆听上花很多时间,看了很多朋友,大家寻找工作机会也好或者是认识对工作有帮助的合作伙伴也好,在这么大的信息里,这么多人把他自己的信息放在上面,就是做了一件事,就是分析。如果你40岁想当创意公司的CEO,你现在20岁,未来20年该怎么规划?这就是非常有意思的一件事。
最后可能有不同的可能性,最后会不会给你找到一个最好的方法,那是自己决定的。可能性放在面前,是机会率最高的,怎么选还是个人决定,所以大数据并没有抹杀个人的意识。
石述思:大数据首先改变的是我们看待世界的方法,它会对这个时代的很多的价值观产生剧烈冲击。举例来说,因为过去我们东方人特别喜欢一个词叫因果,我们认为善有善报、恶有恶报,其实根据交管部门调查的数据,在街头遭遇横祸的人其实跟道德无关,秦桧的寿命是岳飞的两倍半,很多贪官在发现之前,那过的确实是令人无限羡慕的生活。因此,通过大数据我们能用一种全新的观念来看待这个世界,这个世界是有关联来建构的一个新型的关系,只有科技发展到一定水平,才能达到这样的高度。
与此同时,在大数据时代,我们该恪守的底线还是要恪守,但它的确在告诉我们真相,因为科学就是在告诉我们真相。我有一个愿望,就是刚才讲的大数据是新的黄金,我希望它更多地用于社会公益事业,比如,去挽救地震局。这样能避免很多人道主义的灾难和财产的损失,结论是我们过去认为上帝是哲学家或者叫哲人,现在发现他老人家是个老顽童。
2 大数据究竟有没有对各领域的工作和生活产生影响?
王晓阳:大数据影响了智慧。怎么理解呢?大数据本身的概念是数据采集和处理,到了一定的程度使我们的社会也好,管理者也好,都能获益——从城市来讲,一个管理者可以聚集这些数据和处理方式,使得我们能用智慧来管理城市,可以从交通管理、公共卫生,还有其他各个方面来管理,这管理是需要数据,数据产生了智慧,然后反过头来能管理我们的模式。
比如,在公共卫生方面,采集数据到了目前为止其实已经进行了好多年,它的数据采集原来并不是为了大数据来做的,其实是为了一个方便——方便大家去看病。而且你的电子病例等,让你看病更人性化,或者对医生来讲能更快、更方便地去熟悉病情,但在这种情况下,这个数据一旦采集起来使得我们对整个城市的健康状况就能进一步了解,所以,刚才讲的看病的数据其实是原本的用意,大数据一来其实我们就能看见原来看不见的问题。比如一些比较大趋势方面的问题,流行病在哪个地方比较多,或者它怎样流传的,等等。这些事情我们原来是看不到的,这种情况就是大数据对我们的帮助。
徐明强:先举个例子,有一个球和一只蚂蚁,球跟蚂蚁说,做三维世界的事物太好了,你看这条线上有多少个蚂蚁我一眼就看见了,蚂蚁说我真的不信,我得按照这条线爬,爬到头计数器没有出故障我才知道有多少蚂蚁。这能看到三维和二维差了一维,就差了这么大,所以大数据首先它不是数据大,不是同样的数据多了就变成大数据,而是在原有的二维、原有的数据库基础上,再建立一维,给它一个全新的看点。举例说明,你如果在美国,你是欠了债的,除了债主对你感兴趣,还有人会对你感兴趣——如果你欠了债,突然你可以还债了,那么银行会对你感兴趣。在11年前,美国资本一号就发明了一种大数据的应用,它可以找到哪些人是欠了银行的钱、欠了信用卡的钱,然后它就会观察你的消费数据,当它发现你可以开始还的时候,他立刻把你再买过来,从此以后他就吃上了你的利息。资本一号这个公司在2001年时,每个季度的增长率是20%,就是因为它大数据的程序,它可以高命中率地发现这个,它是从哪里找来的数据呢?从沃尔玛、从各种各样的消费数据中找到的。从这个实例我们可以看出,大数据这个原有的数据分析商务智能上加了一层,商务智能不能告诉我们别人将要并且能做什么。
关于我们公司对奥斯卡颁奖的预测,除了对李安的预测没对,其他都对了。其实,我们的预测是把所有人员都做了一个概率,所以做了19个预测对的,是我们放在第一概率的获奖人,下面还有4个是第二概率,所以李安导演我们放在第二概率,我们把他放在后面。
这个预测跟大数据很有关系,首先做大数据需要有IQ,智商,就是说,这个模型要非常好。我们公司做IQ的人叫加戴维·罗斯查尔德,是我们研究部门的一个人。还有其他人,我要讲讲,他这个人的IQ有什么差别?他这个人的IQ用了一个非常简单聚合的模式,除了IQ还有什么呢?智商以后还要有勤商,勤奋的勤。勤商就是说,他非常勤奋地去找数据,要找多种数据,还要找非常实际的数据,所以他在网上、社交网上都有找。有一些找不到的数据,怎么办?他找人做调查,然后找人来做,所以他又有智商,又有勤商,够不够呢?还不够,五年前这种事情做不到,为什么?五年前他要做这样大量的数据的话,自己作为一个研究生的小预算是做不到的,但云计算的出现,他就可以做到了。可以延伸这些数据,用很多处理器来处理,现在他就是用了云做这样一个计算,最后成功了。
孙健:我写的是机会加危险,就是危机。我同意维克托的结论,说这是一个新的金矿,或者有说法叫新的机会,但不要忘记那同时会带来很多危险。如果我们不能很好地去处理大数据的话,特别是像在我们日常工作中接触到的很多中国企业,它们大多数甚至在最基础的数据分析方面还比较落后,这就意味着,我们该怎样很快地过渡到大数据时代去,去面对大数据挑战,如果准备不好,那我很担心,这会像以往很多新技术来了以后的情况,很容易造成很多企业邯郸学步——连走路都还没学会,就要学跳,一下子迈到大数据时代,企业不知道怎样真正地让大数据发挥作用。
在我们的行业里,因为大数据而做了很多产品创新。谈到大数据时代的破坏型创新,实际上也是谈了同样的问题,因为在创新的同时,事实上要推导、颠覆原来的很多东西,包括我们咨询行业的很多服务和产品都要做更新,也要跟上时代。比如,我们有一家很大的全球性零售企业,它每天要处理海量数据,那么在海量数据之前,虽然有了技术手段,它仍需找到一个很好的切入点,去解决大数据该怎样应用到业务中,改变业务模式,给业务创新带来价值。因为要把这个大数据加以更好地利用,再便宜还是投资,还是要改变,硬件、软件各方面要做配置,甚至对应的组织要做调整,一个企业要做进一步调整才能适应大数据时代的需求,才能让大数据发挥作用。所以我们做的工作就是帮助企业找到它的价值创造,建立业务模式,来证明在这方面做这样的投资,让大数据发挥作用是值得的。
俞吾金:我想提出不同看法,就是因为人类的思维有一个特点,他把觉悟的东西夸大为全球的。比如你看到三只天鹅是白的,但其实有一千只天鹅都是白的,可在澳大利亚发现了一只黑天鹅,就把一切天鹅都是白的这个原理给推翻了,我觉得大数据这个问题是重要的,但如何正确看待它,不能走极端。大数据反映了人们从数量关系去理解生活的一种思维方法,从古代开始就非常重视,当然古代没有使用大数据这个概念。
数字本身对生活的重要性越来越大。从哲学上看,它有实践性,比如数学中的π,圆周率,它等于3.1415926……它就把所有大数据都囊括进去了,更容易理解的是三分之一,三分之一的另一种写法就是0.333333无限被延伸,所以黑客在逻辑学里就强调,这个无限包容在三分之一这个有限中,有限中包含着无限的一个展开,包含所有数据的展开,这就体现了实践精神。从这个实践角度看这个数据,我认为大数据在当代的变动中有重要地位,但看它要有眼光,不要夸大也不要缩小。
3 怎么理解三分之一就把一生所有数据都概括了?
维克托:我不同意俞老师的观点。数字的历史很悠久,但是,以前我们对这些数字的处理方式非常有限,光有技术是不够的,能对数据进行分析,比如像数字,它对你只是一个数字,这个意义不重要,你也可以用一个汉字或一个字母来表示,那从这个角度来看,大数据不过是一个很长很长的数字,你可以用心记住就可以。
但其实,大数据的价值在于,在整个数据的收集过程中,需要运用分析才可以了解。比如,如何进行预防性的维修,如何能够防止爆发等,我们不是把这个数字简单地记下来或背下来,而是要通过分析,通过数据统计的分析,通过把它进行整理了解之后分析,这不是你背下来一个数字就可以了,这是非常大的区别。
4 大数据时代究竟会给生活带来什么样的颠覆?
维克托:首先从商业来讲,我觉得有三个元素要记住:一个是在商业世界中决策将发生变化,会越来越清楚地证明,要靠数据说话。
在美国,最大的互联网公司大概是谷歌,每天都有30亿搜索请求。有一天他们屏幕上准备用蓝色,然后他们就选了一个特别的蓝色,但他是要测试41种不同的蓝色,来看到底哪一种最受欢迎。他本来想自己来决定:我是首席设计师啊,我就选了一种蓝色。但他的老板说:不行,我需要实证来告诉我们哪一种蓝色最受欢迎。但这个谷歌的首席设计师就辞职了,他说我是首席设计师啊,我是最清楚的。通过很多测试发现,有一种蓝色的蓝是裸眼看到和设计师选的蓝色不太区别得开,但另一种通过测试所产生的蓝色,更受欢迎,有更多点击量。通过实证做出来的决策更有效。类似例子有很多,都说我做这行已经几十年了,我说的肯定没错。这种传统的社会观念和思维方式会受到挑战,我们的决策必须要靠数据说话,这是第一点。
第二,就是在我们出去说话时,我们要注意不能误读数据,错误的数据是不行的。也就是如果原来的材料不对,原料是垃圾,出来的东西肯定也是垃圾,这个公司出这些数据的话都是比较容易理解的,但可能不是你应该熟悉的数据。
第三个是挑战。就是普通产业,尤其是计算机产业,数据会超越它们,这个可能是有一种挑战式的说法。如果没有足够的数据,你也赶不上一个大量数据的比较平庸的模型,也就是为什么说数据会超越那些产业。比如机器翻译这件事,在六七十年代,IBM花了很多钱想用机器翻译,它要弄一些语言的规则输入到机器中,但效果不太好,它就有了一个新想法,它不是把一种语言的语法规则输入机器,而是把加拿大议会中的英法双语的互译输进去,把成千上万的翻译资料输入进去,它就有了大量的累计组织上的数据库,这个效果就好得多。而谷歌又在这个领域有更多数据,一下子这个翻译就更成熟、效果更好。可以说,是这个数据使它超越了这个软件。因为今天这个大数据的力量,可以很容易地获得想要的资讯,但大概在十年前,需要五十万个服务器,大量的储存以及处理数据的模式,你才能开始一个新业务。今天如果要输入业务,用云计算来测试就可以了。比如有一个叫蒂塞德的公司,它有很多产品及价格,它收购一些数据来预测到底一个产品是上架还是下架,虽然他们拥有大量客户,可这个公司的员工只有13个人,因此它的服务器有很多,他们拥有大量的数据。可见,这个舞台不仅可以让大公司来做,而且创新的小公司也能以平等的地位来竞争。
王晓阳:其实讲到改变了我们整个思维方式,所谓的就是实验这个思维,比理论思维更重要,这一点我不是太懂。其实维克托先生刚才举的例子,是在很多情况下,是我们用数据去验证以前想要能够有的东西,有一些智慧确实是在数字里挖掘出来的,这个可能是一个语言来自不同的地方,怎么讲呢?基于在大数据的情况下,其实有一个所谓的循环概念,等于说你有了智慧以后去验证,验证数据里又产生了各种各样的智慧来做这样的理解,所以从这个角度来讲,我觉得是大数据的情况下面,没有颠覆,而是说一个改进,对我们认知世界的改进。就公共卫生这个话题来说,我们举的最多的一个例子就是在谷歌,有一个所谓的趋势预测,它就是用了网民们搜索的词来预测。
所谓的预测流感,怎么做?很简单,就是它去分析了以往的数据,说在流感发生的地域,地域的那个时间大家是用什么词去搜索,这样就可以做统计。做了统计以后,反过头来用这些搜索词来预测这个流感,这种情况下是什么意思?并不见得是说这种数据或大数据的情况就能使我们对这个流感突然有一个新的认识,其实不然,其实是谷歌的那些工程师们有一个想法,认为我们好像流行流感,这和大家有关,而每个人都会用搜索来获取一些跟流感有关的信息,就有了这样的关联。这个关联怎么去发现?这就要用数据去发现,用所谓的大数据的做法,去实现我们已有的一些概念的东西,把它实现了之后,就能做预测。所以从这样的角度讲,并不见得是有了大数据,我们就可以把所有的智慧都丢掉,我们不用IQ了,只要数据就好了,这肯定是不行的。一定是IQ加上数据,然后能让它有个正反的概念,这是大数据所应该干的事情。
童士豪:我有不同想法,我觉得刚才维克托先生讲的一点很有意思,就是对智慧的要求,大数据时代是不一样的。在大数据时代,对智慧的要求可以低一点,都能产生更好的结果,这是一个有意思的事情。他刚才提了一个例子,之前要做翻译是很难的,你的规则必须特别强、精简、完整,才能有60%、70%的准确率。但在大数据时代,我们不用想那些,不用花智慧讲那么复杂的规则和套路,干脆把几亿个已翻译好的文章交给电脑,用统计学的方式找到哪种情况下,翻译的字的另外一个意思是比较对的。这对于智慧的要求其实是降低了,但效果可能会更好。
孙健:可能我们对智慧的理解有歧义。我觉得维克托先生讲的我理解,因为他有另一本书叫《Delete》,里面专门讲了这个三重智慧,谈了取舍问题。因为随着存储技术、因特网的发展,他讲的更多的是知识,知识的要求可以低,但对智慧,我觉得理解不一样。我理解的智慧是,你判断一个事物的根本的、真正的洞察能力。就是,你对一个事物的洞察能力还是需要有,不会因为大数据的存在而削弱或不需要了,而恰恰因为大数据的存在才更需要洞察力。
5 大数据时代到底真正来临了吗?
王晓阳:大数据时代来不来临要看你怎么度量、衡量。现在这个数据的量和种类,以及采集的方式、手段,处理的手段,绝对已经达到了“前无古人,后无来者”的感觉。这个情况下,我们从这个数据采集以及数据处理这个能力方面来讲,我们的大数据时代来临了,但我们使用数据利用数据这个才是刚刚开始,只是刚起步。
而大数据改变我们生活的时代,还没有完全到来,但为这个我们已经做了很多准备,这是城市的管理问题。我们为大数据时代做了很多准备,比如在数据采集方面已经做了很多准备,怎么样利用这个数据来做我们这个智慧城市,这是一个最大的问题。
徐明强:从商业角度来看,我从运用上说,个人认为是来临了。举个例子,墨客这样一个药材公司,他可以根据天气性质,比如如果今天冬天特别冷,很多过敏性动物就会冬眠,四五月份突然转热时,花粉也开始多了,今年有很多人会过敏,等等,它就通过市场进行营销,把比如克敏能这种药材发布出去。
维克托·迈尔·舍恩伯格:美国总统奥巴马曾说,尽管政府也尝试,但他总是落后于企业,落后于社会的其他一些群体。所以说搞这种活动能充分激发数据,提供给大众,而且公司也可以拿这些数据,让公司能利用这些数据有更多创新。这是一个想法,也许有一些做法,比如商业方法,我认为能通过发挥企业的智慧,发挥像微软这样的一些聪明企业的智慧,还是有帮助的,包括和政府的合作来管好社会。
石述思:我有一个感受,当商业巨头面对屌丝谈大数据时,我们都有一种不寒而栗的感觉,因为尽管大数据时代我们每个人都是公平的,我们可以说小公司可以获得公平竞争待遇,但其实掌握大数据的都是一些巨头,他们有得天独厚的优势来抢我们钱包里的钱,我们很难,因为公司的定义就是在法律允许的范畴中唯利是图。但我们倒是渴望政府部门能利用大数据为我们提供普惠性的服务,可就像一些智慧城市没法真正做到智慧管理的案例一样,所以我对大数据来到中国的前途深表忧虑。还有,即使优秀的公司利用大数据,它也要面对一个现实,比如我们像电视台做广告的一样,为什么现在人依然很多,因为中国贫富差距特别大,如果你掌握了所有消费者的数据,而大多数在今天是无效数据,所以你还是有一个有选择的大数据的过程,叫有购买力的大数据,所以各种各样的问题就会出现在我们面前,就是社会本来是我们需要,但它存在很多幕后看不清楚的东西。我们担心被商业巨头利用,来完成对消费者进一步的盘剥。
孙健:我觉得从企业角度来看也是同样的问题。我前面想表达的意思就是,第一我们今天中国很多企业实际上并没有准备好迎接这个大数据,因为我们现在还停留在比较初级的基础数据分析时代,我们很多的基础数据今天都没有被运用,不要说大数据,就是小数据今天也没有很好的利用。还有很多假的数据,是因为对这些数据的输入管理非常不成熟,我自己在工作中接触很多企业,企业今天做的几件事大家都在做,有ERP系统,有数据库,有了数据就往里面存,但我发觉,有很多中国企业兑现的数据管理没有规范化的感觉,更没有很好的利用。这就存在这样的担心:最后大数据时代来了以后,我们本来中国企业在这个数据分析的利用上就不擅长,今天有了大数据以后差距会变得更大,以后国际巨头有一个成熟的数据分析方法,很多健全的商业模式,它会把这个差距变得越来越大。
6 在大数据时代,下一个预言会是什么,下一个判断会是什么?
维克托:接下来怎么能让生活比现在更高效,就是要让城市变得更加智能,这是可行的,为什么?我强调的是,我们有可能改善我们的公共卫生,改善教育,我们有能力收集数据,公共交通的通化能真正满足市民的需求,而不只是政客,而且能源消耗也会得到更好的检测、预测和管理,这样我们的城市就会更加智能,让城市的生活更加好。在150年前,曾有预测如果是在城市生活,寿命会更短;在农村生活则寿命长。而150年之后的今天,寿命更加长了,有了大数据我们会更加美好,可是有一个条件,就是那些决策者,他们一定要使用这些数字才可以。
下一步是专家怎么来做。其实这涉及到在数据时代,数据点是有限的,那么我们收集的数据,只要我们收集足够的数据来解决问题就可以了。因为非常复杂、数据点非常少,所以我们的数据点收集起来必须是要高质量的,现在不是这样的,现在的是更加的多、更加的乱。解释一下什么叫更多更乱,更多就是有数据点,关于我们想要研究的一个现象,我们可以更多的进行数据统计,比如在美国,你有DNA基因图谱,那么只要2000美金就可以知道你的整个基因图谱当中的30亿这个东西是怎么组成的,这样你就可以知道那些30亿个精对,现在如果说有一个基因组成可能会导致什么样的癌症,就可以查基因图谱,说我是不容易生这个病的,这是为什么可以预测是否患癌症的原因。那么有更多的数据便会存在一定的不准确性,所以,我说更多且更乱,所以这里允许一点点的不准确,或者可以乱一点,这个所谓的乱就是指,不是说每一个数据点都要达到最高的准确度,这个结果就是,不是百分之一百完美,但在大数据这样一种方向,或者说,我们在正确的数据点上要知道一个方向。知道方向比晚一点知道完美的数据更有效。比如交通预测,也许当下看到的交通预测比实际运用中要晚了20分钟,可能看起来太晚了,但如果这是预测一个星期的信息,就够了。
王晓阳:大数据时代对我们这个城市更加理解,所谓的理解就是你知道这个城市里发生了什么,这非常重要。在以前,这个城市的管理都是一拍脑袋,有的时候拍脑袋拍出很好的来,拍脑袋也能拍出非常棒的一个城市来,但是有的时候呢?拍脑袋可能太离谱,这种情况下在大数据时代我们怎么样利用好,就是我们所讲的。而为了政绩也可以用大数据来考虑,说这个数字到底对它的政绩有没有好处?就是名义是一个很大的方面,大数据方面不光是理解我们这个城市发生了什么,而且还能了解我们城市里的民众在想什么?这点对城市管理来说非常重要,城市不光是一个硬件设施,不光是地铁和高楼,人在里面非常重要。
以上是小编为大家分享的关于大数据时代,人类生活面临颠覆的相关内容,更多信息可以关注环球青藤分享更多干货