A. 大数据与熵 临界分析
大数据与熵:临界分析
大数据的践行者们不仅在思维上进行了转变,在数据处理上同样采取“大数据”的方法:分析全体而不是样本,不追求精确性,“知其然,不知其所以然”(注:第三句是笔者归纳,原文意思是只要知道“是什么”,不必知道“为什么”,或只问相关性,不问因果关系)。同时宣布传统的抽样方法已经过时,不能适应当今互联网信息社会的要求。
上述断言过于武断。如果断言的目的是为了强调面对信息爆炸,人们必须不断地寻找新的方法,包括“大数据方法”,来分析和处理数据,那么如何夸大和渲染,都是可以理解并接受的;但是,如果断言的目的是为了劝导人们放弃传统的抽样理论,转而皈依“大数据思维”,这就值得商榷。
纵观科技史,人们对物体运动规律的研究,牛顿定律曾被认为绝对正确。但随着科学家们对微观粒子世界,高速运动(近似光速)物体的研究,牛顿定律不再适用,而代之以量子力学和相对论。但这并不意味着牛顿定律的死亡,在人们生活所及的物理社会里,仍然是牛顿定律起主导作用。
信息社会也是如此,信息的不断膨胀、变化、繁杂使得传统抽样统计方法显得力不从心,于是所谓的“大数据思维”出现了。但“大数据”究竟是要取代传统方法,还只是传统方法的补充,有待于进一步的观察。
质疑:
对于“大数据思维”的三个转变,可以提出三点质疑:首先,如果通过分析少量的样本数据就可以得到事物的准确性质,是否还有必要花费成本去搜集全体数据?其次,如果能够得到准确数据,还有必要刻意追求不准确吗?最后,如果能够了解到因果关系,会视而不见,只去分析相关吗?
合理的解释是:首先,如果通过分析少量的样本数据无法得到事物的性质,人们不得不花费更多成本去搜集全体数据来分析。其次,如果得不到准确数据,人们不得不接受不那么准确的、差强人意的数据来进行分析。最后,如果不能够了解到因果关系,人们会退而求其次,以分析相关关系来了解事物。
基于上述解释,大数据方法不应该是刻意为之,而应该是不得已而为之。换言之,大数据方法仅在传统的抽样统计方法不起作用的时候有其用武之地。这就像只有当物体的运动速度接近于光速时我们才用相对论取代牛顿定律。
当然,不可否认,在飞速发展的网络空间里,人们的研究对象,即数据,变得越来越庞大,越来越繁杂模糊,越来越非结构化,这一大趋势使人们乐于接受大数据思维。举个不太恰当的例子,当人们不能解释许多自然现象时,更容易接受某种宗教的解释。
在信息爆炸的今天,传统的抽样统计方法不仅不应该被抛弃,而应该通过一系列改进得到加强,成为高效、实时反映事物状态的主要手段之一。同时,我们欢迎并乐意采用新的方法,比如如日中天的“大数据方法”以及可能的“模糊数据方法”等等。
至此,一个关键问题出现了:面对一个具体事物,如何确定应该用传统方法还是大数据方法?当物理学家研究微观粒子之间的作用力时,会采用量子力学;研究一个桥梁受力时,会采用牛顿力学。信息或数据专家们有这样的理论或判别标准吗?本文下一小节将对此展开讨论。
分析:
首先,考察一般意义上的选取样本大小的规则。
定理:设X1,X2…Xn为独立同分布随机变量,分布为p(x), x∈(x1,x2..xn),则一般抽样样本大小S为:
S = λ*2 ^H(X) …………………………(1)
其中:λ是常数,H(X)= -∑p(xi)*log
p(xi),即随机变量X的熵。
例1:了解总体为N个人对某事物的看法,是或否两个选择,其熵约为1,(假设两种回答人数基本相当),则在一定的置信度、置信区间的要求下(本文不做精确的抽样理论推导,仅举例定性说明,以下同),S随着N的增加(比如到10万)逐步趋向为一个常数;400,此时λ=200。 可以证明,当其它条件不变,随着熵增加,S指数增加,λ保持不变。
换一个方式解释λ。
定义1:λ是在一次抽样中,“典型状态”出现的期望值。
定义2:典型状态指该状态出现概率等于或近似等于相同熵值平均分布下各状态出现概率的那个状态。
举例来说,X服从一个8状态平均分布,其熵为3比特,其每个状态都是“典型状态”,其出现概率都是1/8。
如果X服从一个12个状态的分布,其状态分布概率为
p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型状态是 x5, 出现概率为1/8.
基于上述规定,如果λ取1,H(X)=3,则样本大小S =8,在一次抽样中,典型状态(出现概率1/8)出现次数的期望值为1,等于λ。但状态出现是依概率的,尽管期望值为1,但观察值也可能为0,2,3…,这样的估计误差过大。
如果λ取100,H(X)=3,则样本大小S =800,在一次抽样中,典型状态出现的期望值为100,等于λ。其实际观察值在极大概率下落在95-105之间,如果误差可接受,取λ=100,否则,加大λ。
另外一个影响λ的因素是分层。将例1中的总体N分为高收入(20%),中等收入(50%),低收入(30%)3类人来调查对某事物看法。如果采用纯随机抽样,要保证每层的分布得到准确的估计结果,就要使得最少个体的层能够抽到足够数量,因此λ要乘5(20%的倒数)。但事实上,人们更关心总体结果,兼顾分层的结果,因此,为了节约成本,实际的λ修正系数会小一些,比如取3,这时,样本大小约为1200 。这时,不管总体是10万人还是3亿人,对1200人的样本进行的调查结果可以在3%的误差范围内反映出实际情况。
通过以上分析可以看出,λ是一个100-1000之间的常数,具体数值取决于调查方希望在一次抽样中得到多少个典型状态(或分层的)的个体(期望值),并满足误差要求。在确定了λ之后,样本的大小就只和系统熵相关,呈指数增长关系,即公式(1)。
采用传统抽样方法时,研究对象的随机状态和变化有限,或通过人为的分类使之变得有限,导致熵值很小,因此,使用较小的样本就可以准确地估计总体。加之那时的取样成本很高,调查方要花费很大精力设计抽样方案,在不失精度的前提下,使得样本规模尽量缩小。
互联网时代的状况恰恰相反,研究对象是互联网的行为,获取数据非常容易,因为数据已经产生,不管你用不用它,它就在那里。而互联网上许多研究对象的状态无限多,也很难统计归类(比如“长尾现象”),系统熵值很大,导致样本规模巨大或根本无法确定规模。此时,采用总体分析,即大数据方法就具有优势。当然,即使总体数据已经存在,对其整理和运算也相当消耗资源。一些情况下,采用抽样的方法仍然是最佳的选择。
现在,让我们尝试回答上节最后提出的问题:面对一个具体问题如何选取分析方法?
首先,考察研究对象所需的数据是否已经在应用中自动被收集,比如,用户的线上购物行为。如果不是,比如线下购物,需要研究者设计方法去收集数据,此时,应该采用传统抽样方法。
其次,面对互联网已经(或可以实时在线)获得的海量数据,当研究对象熵值小于5,建议仍采用传统抽样方式,可以得到更高效率;当熵值介于5-15之间,总体分析或抽样分析都可以考虑,视具体情况;熵值大于15,建议采用总体分析,即大数据方法。
上述建议仍然很抽象。在下一小节中,我们借用长尾理论的描述方法,将统计研究对象分为4种类型,分别讨论适用的方法。
分类:
第一类:“无尾模型”。此时,研究对象的状态明确且数量有限,出现概率最小的状态仍然具有统计意义。如民主投票,状态有赞成、反对、弃权3个状态,或是有限个被选举人的支持率;再如收视率调查,状态有几十或几百个电视台。统计结果的描述方法通常是分布直方图,即将状态出现的频次从高向低顺序以柱状图的方式表示出来。连接直方图的各个顶点,就得到总体的概率分布曲线。按照相同顺序排列频次累计数并将顶点相连,就得到所谓“帕累托曲线”。两个曲线表现为凹函数,或二阶导数恒为负值(借用连续的分析,实际上是离散的),在曲线尾部没有出现变化。随着状态数的增多,“二八现象”会显著,即少数状态(比如20%)占到了多数频次(比如80%)。
第二类:“翘尾模型”。此时,研究对象的状态较明确且数量较多,出现概率很小的状态相对失去统计意义,在统计上把这些状态统一归类为“其它”状态。绝大多数情况下,由于其它状态是由许多状态构成的,其出现概率的和高于排列在前的某些较小概率状态的概率,因此,总体概率分布曲线及帕累托曲线在尾部会出现上翘,即所谓“翘尾模型”。为了保证统计效果,其它状态总的概率一般不超过5%。这时,二八现象极为显著,便于“ABC分析”和重点管理,因此翘尾模型在企业管理上应用极为广泛。如质量管理(缺陷分析),库存管理(零配件库、商店、卖场,特别是实体书店,可与后面网络书店的长尾现象比较)等。
以上两种模型运用传统的抽样方法均可以取得良好的统计结果。随着对象状态数量增加,并不存在明显界限。以收视率调查为例:选择3万个调查样本户进行收视调查,当有二、三十个电视台台时,收视率最低的电视台也能得到显著的观察值,可以认为是无尾模型。当电视台数量超过100,许多收视率达不到0.3%的电视台在一次抽样中就无法达到可以保证相对精度的观测值,此时,既可以扩大样本范围来满足精度要求,也可以将小于0.3%的状态合并为“其它”,采用“翘尾模型”。
随着三网融合的进展,绝大多数电视机将具有双向功能,总体数据变得唾手可得,此时,抽样方法仍然有效,它可以用来做实时的、频繁的统计,而采用总体的大数据方法可以定时进行校正,毕竟处理几万个样本比处理几亿条总体数据要迅速、便宜得多。
第三类:“长尾模型”。此时,研究对象的状态不够明确且数量很多,出现概率很小、相对失去统计意义的状态众多。但是,这些小概率状态的全部或部分和占到总体状态的30%-40%,甚至更多。反映在概率分布或帕累托图上就形成一个长长的尾巴(渐进于X轴或Y=1的直线)。如果采用翘尾模型,用抽样的办法,会使总体的30%-40%,甚至更多的状态无法描述。从而必须采用全体数据即大数据的方法。
举例来说:一个实体书店的货架上有1000种书籍,经过统计,老板会发现,卖得好的前200种书占到其销售额的80%以上,而卖得不好的后500种书的占比甚至不到5%,统计上可以并为一类。这就是所谓“二八现象”,老板采用抽样统计的方法可以掌握占销售额95%的书籍的分布情况。而一个网络书店的数据库中可能列有20万种书籍,其中热卖的200种占销售额的20%,前2000种共占到40%。而余下的19.8万种书籍构成其余60%的销售额,但每种份额是如此之小,以至于无论如何扩大样本,都不易被显著地观察到。在这种情况下只能采用大数据方法,否则,60%的销售额都不知道从哪里产生的统计还有什么作用。
第四类:“全尾模型”。此时,研究对象的状态很不明确、甚至未知,而数量极多甚至无限,正常情况下,无论如何选择样本都无法在统计意义上显著地得到各个状态的观察值,一旦可以观察到,说明出现异常。其分布曲线是无限接近且平行于X轴的直线。所以我们也可以称之为“平尾”。
典型的例子如关键词搜索,事先无法确定状态,即系统事先不知道用户要搜索什么,且搜索的内容可能无限多,因此无法事先设计抽样模型。采用分析全体的大数据方法,可以在出现异常时即使发现并加以分析。比如,某种疾病或药物的名词在某一地区的搜索量大增,就可以预测这一地区可能流行某种疾病。事实上,谷歌的大数据分析在这方面已经比传统的流行病预测机制和机构做得更好、更有效率。
大数据方法被认为最适于做预警或预测某种人们事先不知道的状态,而抽样统计则一般是根据已知的状态安排抽样规则。
以上四种模型分析与上节基于熵的分析是一致的。其中无尾和翘尾模型的熵值分别为小于6、介于5-15之间;而长尾和全尾模型的熵值分别为大于15、趋于无穷。前二者多采用传统抽样分析,后二者只能采用大数据方法。更为重要的是,随着量变引起质变,大数据方法会带来更多、更新的概念、理论和技术。
B. 关于数据科学领域,你知道哪些科学趣事
科学大数据处理已经涉及到各个领域,天文学家也开始利用天文望远镜的大数据处理,来进行宇宙天体的计算和预测。
根据天文学家多年收集的数据,我们生活的银河系,大约存在4000亿颗恒星,开普勒天文望远镜在进行天文观测的同时,进行了大数据分析,发现在银河系中,类似太阳的黄矮星大约占据7%的比例,也就是280亿颗。
但是一颗健康的恒星,并不意味着拥有适合生命生存的星球,于是天文学家开始观测恒星系中的行星,在这些宜居恒星周围,大约每检测5颗恒星,就可以发现处在宜居带、有可能存在生命的岩石行星,在整个银河系,至少有60亿颗类似地球的宜居行星。
总结:随着各个科学领域的发展,不同科学领域已经开始逐渐交互融合,数据处理也可以和天文学交互,形成与众不同的数据。
当所有科学理论都融合到一起时,我们或许就可以得到“大一统理论”!
C. 大数据的作用是什么
在测量和测试计算机应用程序时,科学家和工程师每天都会收集大量的数据。例如,世界上最大的被称为大型强子对撞机的粒子持有者对撞机每秒产生大约40太字节的数据。波音公司的喷气发动机每三十分钟就会产生大约十兆兆字节的数据。当一架Jumbo喷气式飞机跨大西洋航行时,喷气式飞机上的四台发动机可产生大约640太字节的数据。如果将这种数据乘以每天平均2500次的航班,每天产生的数据量是惊人的;这就是所谓的大数据。
欢迎关注大数据周刊
从大量的数据中得出结论并获得可操作的数据是一项艰巨的任务,大数据包含了这个问题。大数据带来了新的数据处理方式。比如:深度的数据分析工具,数据集成工具,搜索工具,报告工具和维护工具,帮助处理大数据以从中获取价值。
国际数据公司(IDC)对音乐,视频文件和其他数据文件进行了分析。研究表明,系统产生的数据量每年翻一番。这是摩尔定律的一般概念。
摩尔定律如何改变?
当谈到微处理器的力量时,可能会经历摩尔定律的最后一个宽度。如果处理能力增加了,其他计算领域将不得不被检查。从云计算的能力来看,云计算提供了可共享的资源,处理能力将提高创新能力,提高业务效率。
为了提高微处理器的处理能力,有一项新的技术正在研究和测试中。英特尔正在德克萨斯州测试光子学。 Photonics使用光线传输数据的速度更快,而且不会造成信号损失。这降低了电力的产生并使数据以光速传播。这个实验将有助于摩尔定律增加其过程流量和能力,重新开始一个新的循环。
摩尔定律之后,人工智能又如何呢?
人工智能已经成为下一个主流的技术范例,这使得人工智能需要新的力量,因为摩尔定律和Dennard标度不够强。摩尔定律指出,芯片特定区域的晶体管数量将在两年后翻倍。在Dennard缩放中,保持晶体管所需的功率量正在缩小。
过去几年来,英特尔已经减少了生产具有更密集和更小晶体管的新芯片的步伐。几年前,小型晶体管效率的提高也停滞不前,这导致了功耗的问题。
AI如何处理更多的数据负载需要更强大的芯片。
科学家和大数据
大数据来源非常多。例如,在现实世界中收集的数据令人震惊地多样化,并且负载巨大。 RF信号,振动,压力,磁性,声音,温度,光线,电压等的测量都以不同形式和高速度记录。
摩尔定律在哪里?
一个晶体管的物理长度和其他关键逻辑的重要维度将逐渐缩小到2028年,但3D概念已经占据了中心位置。与内存有关的行业已经接受了三维架构提升NAND闪存容量,缓解小型化的压力。这并不意味着摩尔定律的结束。
结论
摩尔定律在处理大数据方面依然有效,但在使用3D架构方面更具经济意义。人工智能将在未来几年带来日益增长的处理能力需求,而芯片制造公司必须生产真正快速的处理器来处理工作量。
D. 现在学习大数据怎么样
结合自己这些年的工作经验,要成为一个数据分析师需要两方面的技能:
技术+业务回,前者后者3成7成,千万不答要搞反了,有些人很注重技术,觉得技术是万能的,痴迷于技术的钻研却忘记了最终的目的是要落地于业务
每个城市所存在的机构都不一样,最好要找权威的机构效果更好些,不知道你在哪个城市有没有积云教育,从整体的管理,教学质量都不错。