Ⅰ 数据抽样的终结者—大数据分析
数据抽样的终结者—大数据分析
“如果你真的想要了解发生在您企业业务中的真相,你需要大量的非常详细的数据资料。”数据仓库研究院(TDWI)研究主任菲利普?卢瑟姆在其最新的一份TDWI大数据分析报告中写道。“如果你真的想看一些你从未见过的东西,这有助于您挖掘从未被商业智能分析过的数据。”
这便是大数据分析存在的理由,其是前所未有的。不仅仅是大数据概念的本身提醒着我们,至少我们还可以追溯到21世纪初,“彼时,存储和CPU技术正被百万兆字节的数据所淹没,IT面临着数据的可扩展性危机。”针对大规模和不同的数据集的应用程序中先进的分析技术是前所未有的(如数据挖掘)。这便是大数据分析的出现所带来的划时代的意义了。卢瑟姆说,这是数据可扩展性危机结束的信号。
这给企业带来了前所未有的意义。针对企业所收集的数据进行数据挖掘、数据分析,并在某些情况下作出相关的报告。这就是为什么诸如数据抽样这样的实践方案被视为企业相当务实的必需品。
“你不能把整个数据集都放入到数据挖掘计划中。你必须选择你所需要的数据,必须确保数据的正确性,因为如果你没有投入正确的数据,你的技术可能不奏效。”数据仓库研究院研究员马克?马德森在预测分析研讨会上告诉与会者。
“你可以将您所收集到的数据中的一个很小的比例投入挖掘…概率事件的采样。”他继续说,“但分解会非常罕见,成为非常罕见的事件,使其很难变成样本。”
理想情况下,你要找出所有这些“罕见”事件,他们属于异常现象,如欺诈行为、客户流失和潜在的供应链中断。他们是隐藏在你未分化的数据中的高价值的东西,很难找到。
IBM,微软,甲骨文和Teradata,以及与其他大多数着名的BI和数据仓库(DW)供应商,纷纷开始销售整合了Hadoop的产品。有些甚至大肆宣扬自己实现了无处不在的MapRece算法。
这些供应商不只是谈论大数据,他们正在谈论大数据结合先进的分析技术,如数据挖掘,统计分析和预测分析。换句话说,他们正在谈论的是大数据分析。
根据数据仓库研究院的研究显示,大数据分析还没有到来;尚未被主流所接受。在数据仓库研究院最近的调查中,超过三分之一(34%)的受访者表示,他们所在的企业结合大数据,实行了某种形式的先进的分析。在大多数情况下,他们仅仅采用非常简便的方法。例如,数据抽样。
数据集成专家PervasiveSoftware公司的大数据产品的高级主管DaveInbar说,事实上,如果企业没有考虑逐步淘汰抽样调查和其他过去的所谓最佳实践的“神器”,他们真的是后知后觉了。
“如果你继续采用数据抽样的方法,你可以实际处理所有数据,但数据的科学性本质上是削弱的。”他说。“在Hadoop的世界,没有任何理由不采用商品硬件、真正的智能软件。在过去,我们采用抽样数据,可能还有经济成本方面的考量原因,或者技术达不到的原因。但在今天,这些原因都不复存在。数据采样在过去是最好的实践方案,但我认为它的时代已经过去了。”
“大海捞针的问题不适合采用样本,所以你这样过分强调训练集,可能会导致问题。”负责信息管理咨询的马德森指出,“最终,运行整个数据集要比紧紧按照统计算法和担心样本更容易。技术可以在出现分配挑战时处理数据的问题,并可以访问统计方法。”
Ⅱ 大数据总体思维指的是使用全量数据抽样数据就不再重要了对吗
大数据总体思维指的是使用全量数据抽样数据就不再重要了对。全局大局思,大数据研究的对象是所有样本,而非抽样数据,关注样本中的主流,而非个别,这要求应用人员必须有全局和大局思维。
Ⅲ 抽样调查会被大数据的全样本分析所取代吗
抽样调查是否会被大数据的全样本分析取代?两者的比较应该从哪些维度去看?结果如回何?哪些行业大数据应用成本答比抽样调查成本更低?
答案是:不会。
第一,抽样调查的随机性,使得样本可以反映总体的情况。大数据样本没有这样的随机性,不能很好的代表总体。
第二,能否把大数据样本当作“总体”来使用? 答案依旧是不行。大数据技术本身远远没有达到“普查”的水平,存在统计偏差。
总结:大数据的确很牛逼!大数据不能代替抽样调查!错误的使用,得到的结果只能自欺欺人。
从统计分析,到数据挖掘,再到大数据,扎实的统计知识都是必不可少的。统计知识的意义在于,告诉我们,什么样的结果是错误的!如何不被结果所欺骗!
『全样本分析取代抽样』,如果是在说『在一些过去依靠抽样的研究领域,普查正在替代抽样』,是对的;如果是在说『在数据分析的整个世界里,一种方法正在取代另一种方法』,是不对的。