⑴ 领导干部应关注大数据治理的哪些理念
总的来说,我们认为,领导干部大数据思维方式的建立是一个循序渐进的过程。
需从“经验主义”向“数据主义”决策转变,真正认识到数据的价值。先抛开大数据的概念不提,我们国家的政府信息化和电子政务系统已经实施了很多年,各政府部门也积累了大量关系国计民生的数据,但政府部门的领导干部在决策的过程中往往还是“经验主义”主导,甚至不少领导不知道本部门有哪些数据,数据放在哪里。因此,领导干部首先需要了解自己本部门的数据状况,这些数据目前有哪些主要的应用场景,已经为本部门管理水平和公共服务能力的提升发挥了哪些作用,是否曾经共享给其他兄弟部门以发挥更大的价值等基本问题。另外,还需对数据的价值和作用有基础理解,有意识地提升数据支持决策的能力。
以利他分享的大数据思维思考政府数据共享开放。目前很多政府部门的数据实际上是处于信息孤岛状态,数据由于没有与其他部门进行共享,也没有实现开放,使得数据的价值发掘非常有限。而且,很多政府部门的领导把自己部门的数据看作是部门利益的基础,认为数据的共享开放输出就意味着利益的输出,这种现象在数据能力强的部门体现得尤为明显。领导干部需要认识到,部门的数据如果不流动起来,不与其他的外部数据进行融合,就会成为死数据,而真正发挥价值的是活数据。数据的外部性说明数据的价值不是只存在于内部,站在更高的层次和角度考虑政府数据共享才能使得数据的价值最大。
不少领导干部以政府数据的安全为由,或多一事儿不如少一事儿的心理,对政府数据开放持拒绝或者消极态度。纵观国外政府数据开放的历程,基本是从信息公开起步,在数据开放方面本着“开放为默认,不开放为特例”的原则,才使得数据开放成为建设智慧城市或智慧政府的重要基础。需要认识到政府的数据开放其实是在利用社会力量实现政府治理现代化的目标,因此,把与民生相关的、经过脱敏的政府数据开放给民众以及企业,会促进基于大数据的创新创业发展,也才能让数据通过流动和融合,发挥更大的社会和经济价值。
在服务型政府创建过程中,大数据对于政府提升管理效率、科学决策能力和公共服务水平都能够起到关键作用。服务型政府的愿景是政府能够为百姓提供互动、主动、有效的个性化公共服务,而大数据正是提供智慧服务的基石,尤其在智慧城市建设中起的作用最为显著。领导干部需要从这些目标中总结大数据所起到的价值和作用,有的放矢地开展大数据相关项目规划和实施。
为适应大数据时代的治理需求,领导干部的思维模式需实现自上而下为主向自下而上为主的转变,数据化决策、管理、服务和创新的能力亟需进一步提升。各级领导干部对大数据的认识不能仅局限在概念和产业吸引投资上,而是需要在推动政府治理创新上有更深层次的理解,唯此才能真正促进我国政府治理现代化的进程。
⑵ 大数据思维包括哪些主要内容
一、数据核心原理
从“流程”核心转变为“数据”核心
大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。
例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计算找到了破茧重生的机会,在存储和计算上都体现了数据为核心的理念。大数据和云计算的关系:云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地。而大数据比云计算更为落地,可有效利用已大量建设的云计算资源,最后加以利用。
科学进步越来越多地由数据来推动,海量数据给数据分析既带来了机遇,也构成了新的挑战。大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。为了应对大数据带来的挑战,我们需要新的统计思路和计算方法。
二、数据价值原理
由功能是价值转变为数据是价值
大数据真正有意思的是数据变得在线了,这个恰恰是互联网的特点。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。
例如:大数据的真正价值在于创造,在于填补无数个还未实现过的空白。有人把数据比喻为蕴藏能量的煤矿,煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”,价值含量、挖掘成本比数量更为重要。不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
三、全样本原理
从抽样转变为需要全部数据样本
需要全部数据样本而不是抽样,你不知道的事情比你知道的事情更重要,但如果现在数据足够多,它会让人能够看得见、摸得着规律。数据这么大、这么多,所以人们觉得有足够的能力把握未来,对不确定状态的一种判断,从而做出自己的决定。这些东西我们听起来都是非常原始的,但是实际上背后的思维方式,和我们今天所讲的大数据是非常像的。
举例:在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可能会想干什么。现在的数据还没有被真正挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的情况。统计学里头最基本的一个概念就是,全部样本才能找出规律。为什么能够找出行为规律?一个更深层的概念是人和人是一样的,如果是一个人特例出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。
⑶ 隐私权受威胁 大数据到底有哪些弊端
数据由来已久,但大数据则是近1年来才频繁出现在媒体报端。大数据具有大价值,这似乎是每个人都认同的观点。人们往往总是关注事物好的一面,却往往忽视随着大数据所带来的弊端。 毋庸置疑,大数据能够给企业、机关等机构带来大量的经济价值和利益,直接影响着他们的未来走向。其实,大数据是一把双刃剑 ,在给企业带来无往不利的前进动力的时候,往往也会对企业和个人带来伤害。请看下面的小故事: 以前的情人,在你聊天工具上已经显示了可能认识的人。 上面的情况是通过大数据分析工具而提供的一种服务器,虽然只是一种特例,但却让双方甚至双方的家人都感到尴尬。但这确实真实存在的。无论是在我们的微博上,后者聊天工具上,都会出现这种问题,虽然看起来一个非常方便的功能,但是对于一些人来说却是麻烦。下面我们来看一下大数据所带来的弊端。 第2页:个人隐私受威胁 个人隐私受威胁: 对于个人来说,其在大数据时代往往是作为数据的来源。无论是个人的生活情况,还是消费习惯,身份特征等,都变成了以各种形式存储的数据。这虽然对企业来说可以根据用户数据去分析数据,得到价值,但是对于个人用户来说,无疑是以个不得不被动接受的事情,而这种数据在收集、分析、传输等过程中都可能对用户带来不利的影响。隐私受到威胁 企业在传输这些私人数据的时候可能会遇到麻烦,企业很难保证在整个传输过程中是否有人会查看你的数据,很有可能有人对这些私人的数据进行了监控等操作,这就大大加大了其泄漏的可能性,数据一旦泄漏,很可能为个人带来难以挽回的损失,而个人却又不知道自己的数据时如何泄露出去的,对这让个人用户的隐私权受到无限大的挑战。 大数据不等于大价值: 只有当存储数据的量达到一定值才会有价值,单独出来的数据即使有一定价值但也没有整体的参考价值。这往往给企业一种错觉,大数据定于大价值。 其实,大数据并不等于大价值。大数据分析存储产品设备往往对企业IT设备有更高的要求,企业原有IT设备很难满足大数据时代的挑战。在这种情况下,企业IT部门面临这样一种情况:需求越来越多,但满足这些需求的能力越来越弱。而且企业投入价值与所得信息量价值成反比。当数据达到一定值时,投入的价值甚至超过所得数据价值。 第3页:大数据对企业有更大挑战 大数据对企业有更大挑战: 近年,由于服务器出现故障而造成服务不能提供的事件时有发生,而随着大数据时代的到来,这些故障可能会进一步增多。而这些故障往往会直接造成数据的跌势,服务的中断。例如谷歌泄露个人隐私事件、盛大云数据丢失事件、亚马逊服务器宕机事故等等。 当这些服务中断的时候,用户是毫无解决办法的,只能等待服务提供商的修复,而对数据丢失、损坏等方面,用户对数据保护更是束手无策,只能等待提供商。这样很多用户在发生故障并不能及时作出反应,使损失降到最低。无疑,大数据带来了更多的挑战。 大数据使企业面临厂商绑定: 当我们提到大数据的时候,总是提到大数据的诸多优点,但是却很少提企业如何将大数据变成切实的价值。容易被厂商绑定 目前,很多厂商都针对大数据推出了自己的解决方案。而这些方案虽然号称兼容性非常强,能够兼容其他厂商的设备,但是当你真正的采用一个提供商的设备(软件、硬件)的时候,你会发现你真的很难去改变一个提供商,尤其是在软件方面。很容易被一个提供商绑定。这就大大限制了企业IT基础设置的灵活性。 总结: 大数据时代虽然一切勾画的都是那么美,但是离真正的为企业提供价值的路之间还有不可逾越的鸿沟。大数据并没有想象的那么完美遍地黄金,企业在接下来应考虑如何应对大数据的挑战,而不要仅仅空谈价值。
⑷ 你每一次晒娃,都在一步步把孩子推向被大数据操控的深渊
晒娃,多么美好而温馨的事情,背后却暗藏杀机!
来自长沙的袁妈妈前段时间意外收到一封勒索信,信中列举了她的孩子2岁以来的所有信息和经历,比如上了什么兴趣班、兴趣班的老师是谁,平时谁几点去接孩子,接完孩子后会去哪,字里行间透露的是一个完全不认识的陌生人对自己孩子的了如指掌。后来案件经过调查发现,嫌疑人来自袁妈妈的朋友圈,因为她经常发布孩子的信息,出国 旅游 、兴趣班、高档餐厅的氛围营造出他们家的经济实力,且不顾一切舍得为孩子的花钱,于是缤纷多彩的朋友圈被坏人“盯上了”。
晒娃,成了一种刚需
仔细观察便会发现,只要是有了孩子的家庭,朋友圈、抖音90%以上的内容都是自己孩子。根据某亲子平台2016年发布的《中国家庭晒娃报告》,每100位妈妈中,有82位在各类社交软件上晒出自己的孩子,分享内容会随着孩子的年龄发生变化。而像出生、生日、 旅游 这样的重要日子,是必嗮的。
当然,不乏老师的要求。幼儿园举办活动时经常进行打卡活动,老师会要求家长把孩子履行活动的过程通过图片、视频等方式在朋友圈进行打卡,一方面方便老师知道进展,另一方面可扩大活动影响力。
每一次晒娃,都是为大数据做贡献
在中国,网上分享孩子大致经历了三种形式、四个阶段:
2007年至2009年,主要是新闻官网、校园网和贴吧,以文字形式出现孩子的获奖信息、校园活动;2010年至2013年,人人网、QQ空间盛行,学生在网上上传照片,线上校园社交成为 时尚 ;2014年起,微信、微博开始风行,家长纷纷上传孩子萌照,晒娃风潮初见规模;2019年前后,抖音、快手等短视频平台风靡,则进一步推动了家庭短视频在线上的大量累积。
而所有的这些行为,都一步步沦为大数据的信息来源。据IDC发布的《数据时代2025》,每个联网的人每天平均有1426次数据互动。80后、90后成为了“数字移民”,而00后乃至10后打从出生就生活在了线上,被称为“数字原住民”。可怕的是,大多数人并没有意识到这些数据随之而来的隐患。
“最熟悉的陌生人”,将孩子一步步推向深渊
很多妈妈在朋友圈做微商,经常用自家的宝宝做模特。来自厦门的卷卷妈妈,从怀孕开始就兼职做微商,卖米菲纸尿裤。她经常拍自己孩子穿纸尿裤的照片做宣传,因为自己也是宝妈,自家的孩子一直在用,所以顾客更容易信任她。有一天,她突然看到“儿童模特照打包淘宝20元销售”的新闻,才知道原来犯罪分子会在社交平台上蹲点,下载孩子的照片,再通过后期的PS等技术在非法色情网站上打包销售。卷卷妈妈吓出一身冷汗,仔细回想,自己曾毫不忌讳地在各大平台都上传过卷卷比较隐私的照片,实在不应该。
或许上述案例只是特例,但“手机监听”已经是公开的秘密。在孩子成长的每一阶段,我们不停地接收各类相关推送,就像有一股无形的力量,时刻在监测你的轨迹。在你无法想象和控制的大数据世界里,我们还能为孩子做的,便是提高安全防范意识,在每一次分享孩子前,多给自己15秒的思考时间。
⑸ 大数据 hadoop 三种运行模式的区别、及详细配置讲解
基于Hadoop进行开发时,有时候会被Hadoop的运行模式弄得晕头转向,傻傻分不清各种运行模式的区别,给日常开发带来很多困惑,不同集群配置文件也各不相不同。弄明白Hadoop的运行模式和对配置文件的作用要做到心中明了,在工作中才能得手顺心。
hadoop的配置文件均以XML文件进行配置,它有四个最常见的配置文件,分别为:
core-site.xml文件主要用于配置通用属性。
hdfs-site.xml文件用于配置Hdfs的属性。
mapred-site.xml文件用于配置Maprece的属性。
yarn-site.xml文件用于配置Yarn的属性。
一般来说,这四种配置文件都存储在hadoop默认的安装目录etc/hadoop子目录中。 不过我们也可以在搭建集群时根据实际需求,把etc/hadoop目录和其下的文件复制到另外一个位置。这样可以把配置文件和安装文件分离开来,方便管理。
注意:如果把etc/hadoop目录和其下的文件复制到另外一个位置。
我们需要在环境变量中将hadoop_conf_dir设置成指向新目录。
1、本地运行模式
无需任何守护进程 ,所有的程序都运行在同一个JVM上执行。在本地模式下调试MR程序非常高效方便,一般该模式主要是在学习或者开发阶段调试使用 。
2、伪分布式模式
Hadoop守护进程运行在本地机器上 ,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。
3、完全分布式模式
Hadoop守护进程运行在一个集群上 。这种运行模式也就是我们常见的各种云,主要用于大规模的生产环境中。
注意:分布式要启动守护进程 ,是指在使用分布式hadoop时,要先启动一些准备程序进程,然后才能使用。 比如start-dfs.sh start-yarn.sh,而本地模式不需要启动这些守护进程。
注意:在本地模式下,将使用本地文件系统和本地MapRece运行器。在分布式模式下,将启动HDFS和YARN守护进程。
⑹ 买双色球前,你最关注哪些历史数据
买彩票前我最关注的数据,是大奖得主购彩行为的大数据分析,得出一个正确的购彩理念和方法指导我的购彩行为。
四、正确的购彩方法和理念
根据大奖得主购彩行为的共同点,我们可以得出一个正确的购彩方法和理念。
1、理性购彩。彩票买了就赔,中奖者永远是少数,所以任何时候都要理性购彩,宁愿不买,也不能多买。
2、长期坚持。在理性购彩的基础上,可以坚持长期购买,因为运气什么时候来临无人知道,长期坚持才能在运气来临时抓住幸运。
3、心态平和。买彩票要抱着献爱心、做公益的想法,这样不中奖时才不会着急上火,误入歧途。
按照大奖得主购彩行为的大数据分析来购买彩票,基本不能中奖,我们也不会有太大的损失,这才是正确的购彩理念和方法,比研究什么历史数据有意义多了。
⑺ 《大数据》读后感字
《大数据》读后感2000字
如今,我们正处于一个大数据时代,有时候数据给了我们有力的证明。以下是、《大数据》读后感2000字,欢迎阅览!
这两年,大数据,云计算的思想就像小苹果的音乐一样,传的到处都是,每一个公司不管是互联网公司还是传统企业,都标榜自己的大数据。
1、实体物联网与虚拟物联网
曾几何时,物联网的概念闹得风生水起,庞大的物联网能够让世间大量的物体,都能够被检测 并联网,包括了人、车、房等一切能够被联网的物体,这些物体都能够以种方式被感知他的存在,并对其信息记录在案,以供使用。在若干年前,这还是一种看似遥不可及的事物,要对每个物体都贴上一个所谓的RFID的标签,显得不切实际。如今,随着手机的大量使用,人类本身也被加入了物联网中。为什么要物联网?是为了获取什么?要知道物联网获取了什么,只需要看看在一个物体在没有加入物联网与加入物联网之后,我们多出了哪些东西便能够知晓。那么,很明显,我们需要通过某种方式来获取该物体的信息,这种存储下来的信息,就叫做——数据。
物联网产生的数据是实体的物品之间的信息,而现在的互联网上,占最大数据量的,是虚拟物品,或者叫做网络虚拟物品。由于网络物体是直接寄生于网络,具有能够方便的接入网络的特征,因此,在获取实体物体信息还有一定难度的时期,占有很大优势。但今后实体的物联网产生的数据量一定会不断增加,或许,能够超越网络上的物物相连数据量。
网络的广泛使用,使得信息的产生于传遍变得容易,每个接入网络的人都以一定的角色存在,都是网络的信息的创造者。对于所产生的信息而言,每个接入网络的人又身兼多角,对于网络服务商,他是网络使用者的角色;对于门户网站而言,他是使用的用户;对于社交网站而言,我们则扮演一个虚拟或者真实的网络角色;对于浏览器而言,他是一系列的浏览网页、一些列鼠标动作的角色… 不同的角色取决于对方需要从我们的行为中获取哪些信息。将网络上各种角色看成是虚拟的物体,那么,这种虚拟物体构成的虚拟物联网便产生了巨大的数据量。经历过一直以来缺乏信息获取渠道的日子,现在,既然信息获取变得如此容易,那么,必然迎来信息量暴增的时代——大数据时代。
2、思维的转变
技术的改变,使得我们思维方式也要随之发生变化。在过去的小数据时代,由于获取信息、存储信息、整理信息都是费时费力的活,我们只能精打细算,捉摸着如何以最小的代价、最快的方式来收集尽可能准确的信息。之所以会有抽样统计的方式,是受技术所限,无法获得全体的样本,或者就算获取了也无法在合理的时间内进行处理。由于信息获取代价大,使得我们不得不在获取信息前,就把一切都想清楚,才能够着手处理。这就像在计算机出现的初期,使用纸袋来编码的时期,一次出错的代价太大,所以人们不得不在输入前将代码验证过无数遍之后才敢输入到机器中。而现代计算机让编码的效率大大提升,这才使得人们能够创造出更加强大的软件。人们不需要在着手编码前就对代码过分深思熟虑,因为机器会帮助你解决一些问题。因此,那些担心由于获取数据太方便,进行数据处理、分析代价太小而使人们变得懒惰或者做事欠考虑的家伙,真是杞人忧天。历史上,技术的进步都会提升人类的生产力,但却没有让人们变得懒惰,因为与此同时,欲望也随之增长。人类只会变得更伟大。
因此,大数据时代,这个数据更加全面的时代,我们可以涉足一些之前由于缺乏数据而无法涉及的领域,例如——预测。这是一个令人兴奋的领域,但其实这个领域早有苗头,而且大家都是受益者。我们平时使用的输入法中的智能联想功能,能够根据我们之前输入的文字,来预测我们接下来有可能输入的文字,以节省我们的输入时间。这种算法里,没有人工智能,而只有人们大量的输入习惯的统计,通过大量数据的统计来预测,是一个统计学的方式而非加入了特有的规则或者逻辑。这便引出了在大数据时代,对于信息处理的一种重要方式,基于统计,得出不同个体的相关关系,却无需了解其因果关系,而我们则受益于相关关系。这种方式,看似有些投机取巧,却能够在关键时刻令我们处于优势地位。我们已经习惯了先知道某些事物的因果逻辑,继而推断出相应的结果。但世间总会有一些令人无法用合理的逻辑进行解释的现象,若通过大数据分析,我们能够跳过逻辑阶段直接享用某些一些结果(沃尔玛的啤酒加尿布案例),岂不乐哉。当然,严密的逻辑永远是值得尊敬的。
3、互联网的黏性
在经历过了从广度上通过新花样来吸引用户的时代,由于技术的提高,一个创业者在一个新的领域开辟的东西很容易被其他人所复制。在这个时候,深度很重要。特别是购物网站、微薄、门户网站这类信息量大的网站,越是了解一个用户,优势就越大。所以,在技术已经不是最重要的因素的时代,如何增加用户的黏性、忠诚度便是首要的。通过用户之前的信息,来推测用户的喜好,给用户推荐相应的信息或物品。当你越了解一个用户,而别人却不了解时,这个用户就越离不开你。微薄中有他的`智能排序功能、新闻门户中有“今日头条”应用,各类购物网站有他的推荐算法(但这个纯粹为了增加消费而非增加用户黏性),都能够根据用户之前的浏览、偏好来给出相应的推荐。这些的基础,都是拥有用户的行为记录,否则,都无从谈起。
各行各业,都在疯狂的抓紧时机,获取数据,拥有足量的数据,那一切就变得皆有可能。
凡是过去,皆为序曲是大数据业者最喜欢引用的语句。大数据是现在的潮流,大数据时代被认为是了解大数据的初级读物。近期连续读了两遍,第二遍是为了写这篇读后感,总体而言,值得一看,但细节方面却需要讨论了。
维基网络对大数据的解释:Big data,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
有人说现在是读图时代,除去小说、心灵鸡汤以外,现在的畅销书基本都有图片,这本书是一个特例
首先尝试解析一下作者的三大观点,这三大观点是大数据业者很喜欢引用的三句话:
1 不是随机样本,而是全体数据
我想所有人都能意识到对全体数据的分析优于对随机样本的分析,但在现实中我们经常拿不到全体数据:一是数据的收集方法,每一种方法都有适用的范围,不太可能包罗万象;二是数据分析的角度,战斗机只能统计到飞回来的飞机上的弹孔,而坠毁的则无法统计,沃德通过分析飞回来的战斗机得出来最易导致坠毁的薄弱点;三是处理能力跟不上,就像以前的天气预报太离谱是因为来不及算那些数据。“采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物”,作者显然只关注了一部分原因。
从语言的理解上看,什么是全体数据,究竟是“我们需要的所有数据”,还是“我们能收集到的所有数据”,书中的很多商业案例中,处理的只是“我们能收集到的所有数据”,或者说是“我们认为的全体数据”。人对自然的认识总是有限的,存在主义认为世界没有终极的目标。书中举例“Farecast使用了每一条航线整整一年的价格数据来进行预测”,而“整整一年”就是一个采样,或者是“我们需要的所有数据”。
从历史的角度看,国外的托勒密建亚历山大图书馆唯一的目的是“收集全世界的书”,实现“世界知识总汇”的梦想,国内的乾隆汇编四库全书,每个收集的过程都有主观因素在里面,而他们当时都认为可以收集全部的书籍,到最后,我们也没有得到那个梦中的全体。
2 不是精确性,而是混杂性
既然我们过去总是在抽样,那本身就是在一个置信水平下,有明确的容错度或者是偏差值。人类永远知道我们是在精确性受限的条件下工作。同时,作者本身也承认 “错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在”。那大数据的特征究竟是精确性还是混杂性?
由此衍生出一个问题,大数据的品质如何控制:一、本身就不要求精确,但是不精确到何种程度是需要定义的,否则就乱套了,换个角度,如果定义了容错度,那符合条件的都是精确的(或者说我这句话还是停留在小数据时代?这里的逻辑我没有理顺)。就像品质管理大师克劳斯比提出过零缺陷理论,我一直觉得是一个伪命题,缺陷是一定存在的,就看如何界定了;二、大量非结构化数据的处理,譬如说对新闻的量化、情感的分析,目前对非SQL的应用还有巨大的进步空间。
“一个东西要出故障,不会是瞬间的,而是慢慢地出问题的”。“通过找出一个关联物并监控它,我们就能预测未来”。这句话当然是很认同,但不意味着我们可以放弃精确性,只是说我们需要重新定义精确度。之于项目管理行业,如果一个项目出了严重的问题,我们相信,肯定是很多因素和过程环节中出了问题,我们也失去了很多次挽救的机会。而我们一味的容忍混杂性的话,结果显然是不能接受的。
3 不是因果关系,而是相关关系
这是本书对大数据理论的最大的贡献,也是最受争议的地方。连译者都有点看不下去了。
相关关系我实在是太熟了,打小就学的算命就是典型的“不是因果关系,而是相关关系”。算命其实是对趋向性的总结,在给定条件下,告诉你需要远离什么,接近什么,但不会告诉你为什么那样做。
我们很多时候都在说科学,然而,什么是科学,没有人能讲清楚。我对科学的认识是:一、有一个明确的范围;二、在这个范围内树立一个强制正确的公理;三、有明确的推演过程;四 可以复制。科学的霸道体现在把一切不符合这四个条件的事物都斥为伪科学、封建迷信,而把自己的错误都用不符合前两条来否决。从这个定义来看,大数据不符合科学。
混沌学理论中的蝴蝶效应主要关注相关关系。它是指对初始条件敏感性的一种依赖现象,输入端微小的差别会迅速放大到输出端,但能输出什么,谁也不知道。
人类一旦放弃了对因果关系的追求,也就放弃了自身最优秀的品质:意志力。很多人不愿意相信算命是担心一旦知道了命运,就无法再去奋斗。即使我相信算命,也在探求相关关系中的因果要素。我放弃第一份工作的原因之一是厌倦了如此确定的明天:一个任务发出去,大概能预测到哪些环节会出问题,只要不去 follow,这些环节十有八九会出问题。
解析完这三大观点,下面是我对大数据理论的一些疑惑。大数据是目前风行的反馈经济中的重要一环,在金融、互联网行业的应用最为广泛,而这些行业都是大家所认为的高薪领域。很多时候我就在想,所谓无形的手所产生的趋势究竟是不是无形的。比如几家公司强推一个概念,说这是趋势,不久就真的变成趋势了。我们身边活生生的例子就是天猫的双十一和京东的618,一个巨头开路,无数人跟风,自然就生造出购物节,至于合理不合理,追究的意义也不大,因为很多事情是没有可比性的。这和没有强制控制中心的蜂群思维又不一样。
看完这本书,总是觉得作者说的过于绝对,也许是我的认识太浅了吧,所以最后用法演四戒做总结:
势不可以使尽,使尽则祸必至
福不可以受尽,受尽则缘必孤
话不可以说尽,说尽则人必易
规矩不可行尽,行尽则事必繁
⑻ 大数据都体现在哪些方面
各个方面都可以用,比如我们经常能看到的,“预计堵车长度”“XX预警”等等,这些都是大数据分析的结果。
理论上大数据是一堆没有关系的数据,从没有关系的数据中找到其中的一些规律,就是大数据分析师的工作。
实际的应用中,我们会把数据做一些初步的筛选(找到一些相关的数据),然后再进行数据分析。
当然,大数据本身也有局限性,那就是去掉了特例(就好比天气预报不准),特例也需要注意,可能特例才是打破问题的关键(比如某病毒的第一个抗体,这个就是特例,至少是从特例开始的),所以大数据也是有局限性的。
大数据能做的,首先是体现一种趋势,其次是展现一种或几种最可能的可能性,但是所有的这些仅仅只能作为参考,作为一种理论支撑。(还是那句话,不排除特例(仅仅依靠大数据,一点问题都没有),但特例不是大多数)
当然,如果有一天,能将所有的因素量化,大数据也考虑了所有的因素,那么依靠大数据做判断还是可以的。