Ⅰ 大数据、数据挖掘各自的特色是什么
首先是大数据。 我认为大数据与其说是详细的技术细节实现,倒不如说它首先是一个方法论,他的提出并不是开天辟地的大创造,而是对一种文体解法的总结,并把这类方法正式提出来作为解决现实问题的一种可行手段。 然而光有方法是没用的,它必须要落地,必须要切实地在实际工作中能有产出,能看得见摸得着。那么与之对应地就有一大批完整的技术体系发展了起来,尤其是在开源社区的推动下,这种发展愈加迅猛。 这一些技术包括什么呢?我稍微列举一下,排名不分前后:计算模型、计算引擎、运维、调度、虚拟化、存储等等。实际上这些东西没有一样是在这波浪潮中被新提出来的,在早先都已经有所成果,只是在特定的时间,他们的地位和角色得到了巨大的提升和整个社会的承认。 于是,我们有了maprece、有了hadoop/spark/storm/,有了ganglia等运维系统,有诸如Yarn/mesos这样的调度系统,有docker这样性能极其出色的虚拟化工具,有了hdfs/hbase这样优秀的分布式存储容器。当他们被有机地组合在一起的时候,此时,就已经具备对大数据进行高性能处理的基本条件了。
那么什么是云计算呢?我属于那种想要把分布式计算和云计算两个概念严格分开的那群人。我看到很多人提到云计算的时候想到的不是openstack、docker这些技术而是hadoop、spark这些,我觉得这两者还是应该区分一下的。
曝光率最高的hadoop和spark等计算引擎,通常作为上述我提到的大数据技术链中的核心环节之一,因为他们直接或间接(比如加个hive)地暴露给用户进行使用,很多时候用户看到得最多。而他们最主要的任务是在于提供一种简单的方法,使开发者或者用户能够快速开发或生成出能够并行执行的应用。这样带来一个最大的好处在于,原本那些专注业务的算法专家们,可能并不是非常精通并行计算的方方面面,这种框架就帮助他们不需要太关心并行计算相关的实现,只需要调用接口就可以了。 但是这就是云计算吗?来看看定义:我认为云计算最大的几个特点在于资源按需使用,弹性分配,虚拟化等能力。它最大的几个作用就是,对于一个组织或集体来说,当有各种复杂应用运行在上面时,能够做到资源利用最大化,不同应用之间能够做到隔离互相不干扰。它将整个集群N台服务器的资源抽象成资源池,然后进行跨节点之间的分割。
然后可以看到了,像hadoop/spark这样的系统,虽然后续通过一些附加插件或者组件也提供了类似的资源调度虚拟化这样的功能,但是他们本质,或者说是设计初衷,是为了计算,附加功能严格来说是在他们设计初衷的系统边界之外的。
Ⅱ 大数据挖掘技术主要有哪些谁知道
大数据环境有以下这些特点, 因此涉及的挖掘技术也与之对应:
1.数据来源多, 大数专据挖掘的研究对象属往往不只涉及一个业务系统, 肯定是多个系统的融合分析, 因此,需要强大的ETL技术, 将多个系统的数据整合到一起, 并且, 多个系统的数据可能标准不同, 需要清洗。
2.数据的维度高, 整合起来的数据就不只传统数据挖掘的那一些维度了, 可能成百上千维, 这需要降维技术了。
3.大数据量的计算, 在单台服务器上是计算不了的, 这就需要使用分布式计算, 所以要掌握各种分布式计算框架, 像hadoop, spark之类, 需要掌握机器学习算法的分布式实现。
Ⅲ 一篇文章让你知道什么是大数据挖掘技术
一篇文章让你知道什么是大数据挖掘技术
大数据如果想要产生价值,对它的处理过程无疑是非常重要的,其中大数据分析和大数据挖掘就是最重要的两部分。在前几期的科普中,小编已经为大家介绍了大数据分析的相关情况,本期小编就为大家讲解大数据挖掘技术,让大家轻轻松松弄懂什么是大数据挖掘技术。
什么是大数据挖掘?
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
数据挖掘流程
定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
数据挖掘分类
直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
数据挖掘的方法
神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。
覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
统计分析方法
在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。
模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。
数据挖掘任务
关联分析
两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
聚类分析
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
分类
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
预测
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
时序模式
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
偏差分析
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。