漫谈大数据仓库与挖掘系统_简述数据库数据仓库和数据挖掘三者之间的关系

A. 漫谈工业大数据9：开源工业大数据软件简介（上）

今天真是一个美好的时代，有无数的开源系统可以为我们提供服务，现在有许多开发软件可以用到工业大数据中，当然很多系统还不成熟，应用到工业中还需要小心，并且需要开发人员对其进行一定的优化和调整。下面就简单介绍一些开源的大数据工具软件，看看有哪些能够应用到工业大数据领域。

下面这张图是我根据网上流传的一张开源大数据软件分类图整理的：

我们可以把开源大数据软件分成几类，有一些可以逐步应用到工业大数据领域，下面就一一介绍一下这些软件。（以下系统介绍大都来源于网络）

1、数据存储类

（1）关系数据库MySQL

这个就不用太多介绍了吧，关系型数据库领域应用最广泛的开源软件，目前属于 Oracle 旗下产品。

（2）文件数据库Hadoop

Hadoop是大数据时代的明星产品，它最大的成就在于实现了一个分布式文件系统（Hadoop Distributed FileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

Hadoop可以在工业大数据应用中用来作为底层的基础数据库，由于它采用了分布式部署的方式，如果是私有云部署，适用于大型企业集团。如果是公有云的话，可以用来存储文档、视频、图像等资料。

（3）列数据库Hbase

HBase是一个分布式的、面向列的开源数据库，HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

基于Hbase开发的OpenTSDB，可以存储所有的时序（无须采样）来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics，支持永久存储，可以做容量规划，并很容易的接入到现有的报警系统里。

这样的话，它就可以替代在工业领域用得最多的实时数据库。

（4）文档数据库MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

MongoDB适合于存储工业大数据中的各类文档，包括各类图纸、文档等。

（5）图数据库Neo4j/OrientDB

图数据库不是存放图片的，是基于图的形式构建的数据系统。

Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。

OrientDB是兼具文档数据库的灵活性和图形数据库管理链接能力的可深层次扩展的文档-图形数据库管理系统。可选无模式、全模式或混合模式下。支持许多高级特性，诸如ACID事务、快速索引，原生和SQL查询功能。可以JSON格式导入、导出文档。若不执行昂贵的JOIN操作的话，如同关系数据库可在几毫秒内可检索数以百记的链接文档图。

这些数据库都可以用来存储非结构化数据。

2、数据分析类

（1）批处理MapRece/Spark

MapRece是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Rece（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Rece（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。

这些大数据的明星产品可以用来做工业大数据的处理。

（2）流处理Storm

Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快（在一个小集群中，每个结点每秒可以处理数以百万计的消息）。Storm的部署和运维都很便捷，而且更为重要的是可以使用任意编程语言来开发应用。

（3）图处理Giraph

Giraph是什么？Giraph是Apache基金会开源项目之一，被定义为迭代式图处理系统。他架构在Hadoop之上，提供了图处理接口，专门处理大数据的图问题。

Giraph的存在很有必要，现在的大数据的图问题又很多，例如表达人与人之间的关系的有社交网络，搜索引擎需要经常计算网页与网页之间的关系，而map-rece接口不太适合实现图算法。

Giraph主要用于分析用户或者内容之间的联系或重要性。

（4）并行计算MPI/OpenCL

OpenCL（全称Open Computing Language，开放运算语言）是第一个面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境，便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码，而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器，在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。

（5）分析框架Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapRece任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapRece统计，不必开发专门的MapRece应用，十分适合数据仓库的统计分析。

（6）分析框架Pig

Apache Pig 是apache平台下的一个免费开源项目，Pig为大型数据集的处理提供了更高层次的抽象，很多时候数据的处理需要多个MapRece过程才能实现，使得数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。[2]

Pig LatinPig Latin 是一个相对简单的语言，一条语句就是一个操作，与数据库的表类似，可以在关系数据库中找到它（其中，元组代表行，并且每个元组都由字段组成）。

Pig 拥有大量的数据类型，不仅支持包、元组和映射等高级概念，还支持简单的数据类型，如 int、long、float、double、chararray 和 bytearray。并且，还有一套完整的比较运算符，包括使用正则表达式的丰富匹配模式。

B. 大数据的核心数据挖掘

大数据的核心：数据挖掘
大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？
总结的过程也是一个学习的过程，通过有章节的整理对目前正在的学习的内容做规整。在这个过程中我们会从具体的项目实施中去谈数据挖掘，中间会贯穿很多的概念，算法，业务转换，过程，建模等等。
我们列一下要谈论的话题：
1、什么是数据挖掘及为什么要进行数据挖掘？
2、数据挖掘在营销和CRM中的应用？
3、数据挖掘的过程
4、你应理解的统计学
5、数据描述与预测：剖析与预测建模
6、经典的数据挖掘技术
7、各类算法
8、数据仓库、OLAP、分析沙箱和数据挖掘
9、具体的案例分析
什么是数据挖掘？
是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类：数据挖掘是一项探测大量数据以发现有意义的模式（pattern）和规则（rule）的业务流程。
这里谈到了发现模式与规则，其实就是一项业务流程，为业务服务。而我们要做就是让业务做起来显得更简单，或直接帮助客户如何提升业务。在大量的数据中找到有意义的模式和规则。在大量数据面前，数据的获得不再是一个障碍，而是一个优势。在现在很多的技术在大数据集上比在小数据集上的表现得更好——你可以用数据产生智慧，也可以用计算机来完成其最擅长的工作：提出问题并解决问题。模式和规则的定义：就是发现对业务有益的模式或规则。发现模式就意味着把保留活动的目标定位为最有可能流失的客户。这就意味着优化客户获取资源，既考虑客户数量上的短期效益，同时也考虑客户价值的中期和长期收益。
而在上面的过程，最重要的一点就是：如何通过数据挖掘技术来维护与客户之间的关系，这就是客户关系管理，CRM。
专注于数据挖掘在营销和客户关系管理方面的应用——例如，为交叉销售和向上销售改进推荐，预测未来的用户级别，建模客户生存价值，根据用户行为对客户进行划分，为访问网站的客户选择最佳登录页面，确定适合列入营销活动的候选者，以及预测哪些客户处于停止使用软件包、服务或药物治疗的风险中。
两种关键技术：生存分析、统计算法。在加上文本挖掘和主成分分析。
经营有方的小店自然地形成与客户之间的学习关系。随着时间的推移，他们对客户的了解也会越来越多，从而可以利用这些知识为他们提供更好的服务。结果是：忠实的顾客和盈利的商店。
但是拥有数十万或数百万客户的大公司，则不能奢望与每个客户形成密切的私人关系。面临这样困境，他们必须要面对的是，学会充分利用所拥有的大量信息——几乎是每次与客户交互产生的数据。这就是如何将客户数据转换成客户知识的分析技术。
数据挖掘是一项与业务流程交互的业务流程。数据挖掘以数据作为开始，通过分析来启动或激励行为，这些行为反过来又将创建更多需要数据挖掘的数据。
因此，对于那些充分利用数据来改善业务的公司来说，不应仅仅把数据挖掘看作是细枝末节。
相反，在业务策略上必须包含：1、数据收集。2、为长期利益分析数据。3、针对分析结果做出分析。
CRM（客户关系管理系统）。在各行各业中，高瞻远瞩的公司的目标都是理解每个客户，并通过利用这种理解，使得客户与他们做生意更加容易。同样要学习分析每个客户的价值，清楚哪些客户值得投资和努力来保留，哪些准许流失。把一个产品为中心的企业转变成以客户为中心的企业的代价超过了数据挖掘。假设数据挖掘的结果是像一个用户推荐一个小首饰而不是一个小发明，但是如果经理的奖金取决于小发明的季度销售量而不是小首饰的销售量（即便后者更为有利可图或者收获长期盈利更多的客户），那么数据挖掘的结果就会被忽视，这就导致挖掘结果不能产生决策。

C. 数据仓库与数据挖掘问题

公众交流平台
1 介绍
数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库技术是基于信息系统业务发展的需要，基于数据库系统技术发展而来，并逐步独立的一系列新的应用技术。数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具，也是一种达成“数据整合、知识管理”的有效手段。随着数据仓库技术应用的不断深入，越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统，希望能对历史数据进行具体而又有针对性的分析与挖掘，以期从中发现新客户和客户新的需求。
目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收购)等。Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统，能够提供一系列的数据仓库工具集和服务，具有多用户数据仓库管理能力，多种分区方式，较强的与OLAP工具的交互能力，及快速和便捷的数据移动机制等特性;IBM公司的数据仓库产品称为DB2 Data Warehouse Edition，它结合了DB2数据服务器的长处和IBM的商业智能基础设施，集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件，提供了一套基于可视数据仓库的商业智能解决方案;微软的SQL Server提供了三大服务和一个工具来实现数据仓库系统的整合，为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能，可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能;SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系，适应于对企业级的数据进行重新整合，支持多维、快速查询，提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能;Teradata公司提出了可扩展数据仓库基本架构，包括数据装载、数据管理和信息访问几个部分，是高端数据仓库市场最有力竞争者，主要运行在基于Unix操作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的产品包，包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;Business Objects是集查询、报表和OLAP技术为一身的智能决策支持系统，具有较好的查询和报表功能，提供多维分析技术，支持多种数据库，同时它还支持基于Web浏览器的查询、报表和分析决策。
根据IDC发布的2006年数据仓库市场分析报告，上述公司占据了全球近90%的市场份额，提供的数据仓库产品的功能特性已经成为市场的主流。这些公司在推出各自的数据仓库产品的同时也提供了相应的数据仓库解决方案。本文后续内容将针对这些数据仓库产品和解决方案的主要支撑技术进行比较，并结合IDC和ChinaBI相关报告给出相应的市场情况分析。
2 支撑技术
在数据仓库系列技术中，主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术。
2.1 数据库技术
数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面，基于数据库技术而发展的关系模式的理念已经被颠覆，取而代之是各种各样的数据仓库数据模型，如星型模型，雪花模型等。然而，在已有的数据仓库实践中，关系数据库仍然是实质的数据库存储工具，只是将数据库表改称为了事实表和维表，将属性域之间的关系重新定义为维度，量度，层次，粒度等。
成熟的数据仓库后台数据库包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查询效率方面，Sybase IQ由于采用了列存储技术，查询效率比较高;在兼容性方面，Teradata从软件到硬件都必须是专用的，因而兼容性最差;在管理平台和海量数据管理方面，Oracle、DB2和SQL Server都提供了一系列完整的工具，相对于其它产品有着明显的优势;在磁盘空间利用方面，Sybase IQ的压缩比是所有数据库中最好的，而Teradata最为浪费。
另外，SAS公司和BO公司也拥有自己的数据管理能力，但对于大型数据仓库的数据管理，仍然需要使用上述数据库产品，SAS和BO都提供了与这些数据库进行连接的专门接口。
2.2 ETL技术
数据仓库系统是集成的、与时间相关的数据集合，ETL作为数据仓库的核心，负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转，ETL技术是必不可少的关键技术之一。
主流数据仓库产品供应商都拥有各自的ETL能力。IBM的ETL工具称为IBM WebSphere DataStage，它为整个ETL过程提供了一个图形化的开发环境，支持对多种操作数据源的数据抽取、转换和维护，并将其输入数据集或数据仓库;Teradata的ETL工具称为ETL Automation，它利用Teradata数据库本身的并行处理能力，通过SQL语句实现数据的转换，提供对ETL流程的支持，包括前后依赖、执行和监控等;SAS的ETL工具称为ETL Studio，提供管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点。其他几家公司则将其工具融合在大的数据仓库组件中，如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可扩展数据整合平台Data Integrator。
上述各公司提供的ETL相关工具功能相近，在易用性、效率、价格等方面各有千秋，但就工具的二次开发、集成和开放性而言，与专业的数据集成平台，如Informatica公司的PowerCenter，相比还是存在一定的差距。
2.3 OLAP技术
联机分析处理(OLAP)是针对特定问题的联机数据访问和分析，通过对信息进行快速、稳定、一致和交互式的存取，对数据进行多层次、多阶段的分析处理，以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要，SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决策者提出的需求，由此出现了多维数据库和多维分析的概念。
目前主流的OLAP产品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等，这些产品都可以生成多维数据立方体，提供多维数据的快速分析，支持所有主流关系型数据库如DB2，Oracle，SQL Server，Sybase等，同时可读取关系数据库中细节数据，实现混合在线分析(HOLAP)或关系型在线分析(ROLAP)。并且，各厂商的OLAP Sever对自己的数据库产品的支持均好于其它数据库，各自的分析工具也都基于开放的OLE DB标准，可以访问支持OLE DB标准的数据立方体。
BO公司和Sybase公司则分别提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension，支持标准OLAP API，如OLEDB for OLAP，能够对Microsoft、IBM等OLAP数据进行划分、钻取等处理，兼容第三方报表和展现工具。Teradata尽管不提供独立的OLAP工具，但提供了相关技术，用于提升运行于Teradata数据库上的OLAP应用系统的性能。
2.4 报表技术
报表技术主要是将集成在数据模型里的数据，按照复杂的格式、指定行列统计项，计算形成的特殊表格。一般的简单报表可以使用通用的前台展现技术实现，而复杂的报表则需要使用特定的报表技术。主流的报表技术都可以灵活的制定各种报表模版库和指标库，并根据每个区块或单元格的需要引用指标，实现一系列复杂的符合要求的报表的自动生成。
主流数据仓库厂商的报表工具中较为有影响包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通过收购Cognos公司获得了完整的报表产品Cognos ReportNet，覆盖了各种报表需求，包括管理报表、商业报表、账单和发票等;BO公司提供了一个完整的企业报表解决方案Crystal Reports Server，支持通过Web快速便捷的创建、管理和交付报表;Oracle Reports工具提供了自由的数据格式方式，可以自动生成个性化字母或矩阵风格的布局，包括动态、数据驱动的图表;SQL Server的报表功能包含在Reporting Services (SSRS)中，包括处理组件、一整套可用于创建和管理报表的工具、在自定义应用程序中集成和扩展数据和报表处理的API。与上述产品相比，Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等报表产品在功能、性能、二次开发等方面都还存在着一定的差距。
总的来说，这些产品在大部分通用软件领域相对国产软件都要优秀，但在有中国特色的报表领域内却是例外，在处理能力存在一定的不适应性。另外这些产品的数学模型都是基于SQL/OLAP理论设计的，在技术上也不能满足国内复杂报表的制作需求。
2.5 数据挖掘技术
当数据积累到一定数量时，某些潜在联系、分类、推导结果和待发现价值隐藏在其中，可以使用数据发掘工具帮助发现这些有价值的数据。数据挖掘就是从海量数据中，提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。通过数据挖掘能找出数据库中隐藏的信息，实现用模型来拟合数据、探索型数据分析，数据驱动型的发现，演绎型学习等功能。
目前，IBM公司的IBM Intelligent Miner支持典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现，可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作;Oracle公司提供的数据挖掘平台称为Oracle Data Miner，它提供了的一个图形用户界面，通过简单易用的向导来指导完成数据准备、数据挖掘、模型评估和模型评价过程，根据需要自动生成将数据挖掘步骤转换成一个集成的数据挖掘/BI应用程序所需的代码;SAS公司的SAS Enterprise Miner将数据挖掘过程简单流程化，支持关联、聚类、决策树、神经元网络和经典的统计回归技术;Teradata公司的挖掘工具称为Teradata Warehouse Miner，它通过将数据挖掘技术整合到数据仓库来简化数据挖掘流程，该工具还可实现将多家厂商的数据挖掘技术嵌入Teradata企业级数据仓库环境中运行;Microsoft数据挖掘平台不同于传统数据挖掘应用程序，它支持组织中数据的整个开发生命周期，允许第三方添加自定义算法以支持特定的挖掘需求，支持实时根据挖掘的数据集进行数据验证。对比于上述公司，Sybase和BO公司并没有推出专门的数据挖掘平台或工具。
和前几项支撑技术相比，数据挖掘技术的专业性更强，与应用领域的特殊背景结合得更加紧密。上述产品除了在性能、通用性、数据展示、二次开发上有一定差异外，没有一个能够占据绝对技术和市场优势，反而是一些专门领域内的专业挖掘工具更具竞争性，如Fair Isaac公司占据了全球信用卡积分市场近7成的份额。
3 市场分析
国际权威市场分析机构IDC将数据仓库平台工具市场细分为数据仓库生成(Data Warehouse Generation)工具市场和数据仓库管理(Data Warehouse Management)工具市场两个部分，前者涵盖数据仓库的设计和ETL过程的各种工具，后者指数据仓库后台数据库的管理工具，如DBMS。根据IDC发布的《全球数据仓库平台工具2006年度供应商市场份额》分析报告，2006年该市场增长率为12.5%，规模达到57亿美元，其中数据仓库生成工具和数据仓库管理工具两个市场的比重分别为23.3%和76.7%，相对于数据仓库管理工具市场，数据仓库生成工具市场的增长进一步放缓。可以预见，整个数据仓库市场将进一步向拥有强大后台数据库系统的传统厂商倾斜。从供应商看，Oracle公司继续占据数据仓库管理领域的领先供应商地位，并且与其主要竞争者IBM之间的这种领先优势正逐渐扩大。Microsoft紧追IBM之后，与其之间的差距则在逐渐缩小。
在国内，商业智能已经成为企业信息化中最重要的组成部分，而数据仓库相关技术在其中扮演着无可替代的重要角色。据ChinaBI统计，2007年中国大陆地区的BI市场份额约为20亿元人民币，同比2006年增长35%，其中BI产品许可证约为9亿元人民币，BI系统集成约为11亿元人民币。现有BI厂商包括产品提供商、集成商、分销商、服务商等有近500家，在未来几年内商业智能市场需求旺盛，市场规模增长迅速。从国内数据仓库实践看，根据ChinaBI评选的2007年中国十大数据仓库的初步结果，传统数据库厂商占据7个，分别是IBM 3个、Oracle 3个、SQL Server 1个，其余3个属于NCR/Teradata公司;从数据仓库规模来看，传统数据库厂商更占有巨大优势，总数据量为536.3T，Teradata则为54T。涉及的行业包括通信、邮政、税务、证券和保险等。
在数据仓库市场快速发展的同时，市场竞争也日趋激烈，其中尤其以Oracle收购Hyperion、SAP收购BO、IBM收购Cognos具有代表意义。截至2007年底，混乱的市场已经基本明朗化，三个层次逐渐浮现出来。Oracle，IBM，Microsoft和SAP位居第一层次，能够提供全面的解决方案;第二层次是NCR Teradata和SAS等产品相对独立的供应商，可以提供解决方案中的部分应用;第三层次是只专注于单一领域的专业厂商，但其在并购的硝烟中日趋难以存活。

D. 数据仓库与数据挖掘的关系,区别与联系(概括一点)

区别：

1、目的不同：

数据仓库是为了支持复杂的分析和决策，数据挖掘是为了在海量的数据里面发掘出预测性的、分析性的信息，多用来预测。

2、阶段不同：

数据仓库是数据挖掘的先期步骤，通过数据仓库的构建，提高了数据挖掘的效率和能力，保证了数据挖掘中的数据的宽广性和完整性。

3、处理方式不同：

数据挖掘是基于数据仓库和多维数据库中的数据，找到数据的潜在模式进行预测，它可以对数据进行复杂处理。大多数情况下，数据挖掘是让数据从数据仓库到数据挖掘数据库中。

联系：

1、数据仓库是为了数据挖掘做预准备，数据挖掘可建立在数据仓库之上。

2、最终目的都为了提升企业的信息化竞争能力。

(4)漫谈大数据仓库与挖掘系统扩展阅读：

数据仓库与数据挖掘的发展历程：

关系数据库是20世纪70年代初提出来，经过数据库专家几十年的努力，理论和实践都取得了显著成果，标志着数据库技术的日益成熟。

但它仍然难以实现对关系数据库中数据的分析，不能很好地支持决策，因此在80年代，产生了数据仓库的思想，90年代，数据仓库的基本原理、架构形式和使用原则都已确定。

主要技术包括对数据库中数据访问、网络、C / S结构和图形界面，一些大公司已经开始构建数据仓库。针对数据仓库中迅速增长的海量数据的收集、存放，用人力已经不能解决，那么数据仓库中有用的知识的提取就需要数据挖掘来实现。

数据挖掘与统计学子领域“试探性数据分析”及人工智能子领域“知识发现”和机器学有关，是一门综合性的技术学科。

网络-数据仓库

E. 谁能说说数据仓库，数据挖掘，BI三者之间的区别和联系的相关推荐

数据仓库（DW）属于BI的一部分,一般来说DW就是BI这个房子的地基了. 做好DW才好进而分析利用内,让数据容产生价值. DW没做好,整个BI项目很容易垮掉.
BI包括ETL, DW和相应的Reporting System. 因为现在一般的公司动不动说上个BI系统，都是要从DW建模开始做，然后做ETL，最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表，但是这一套系统是需要DW和ETL的支持的。
数据挖掘（DM）是一门新兴的技术，在BI 中会常用到数据挖掘的技术。数据挖掘涉及到的是数据库、统计学、机器学习、数据分析、可视化等等。
三者之间紧密联系，但是属于三个不同的概念范畴。

F. 浅谈数据挖掘与数据仓库

浅谈数据挖掘与数据仓库
1数据挖掘
1.1数据挖掘与传统数据分析的区别
数据挖掘与传统的数据分析，如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。
1.2数据挖掘的应用价值
（1）分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。（2）估计：与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类是确定数目的，估计是不确定的。（3）聚类：是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统，对用户wap上网的行为进行聚类分析，通过客户分群，进行精确营销。（4）关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。与关联不同，序列是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。（5）预测：通过分类或估值得出模型，该模型用于对未知变量的预言。（6）偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。除此之外，在客户分析，运筹和企业资源的优化，异常检测，企业分析模型的管理的方面都有广泛使用价值。
2数据仓库
2.1数据仓库的特征
（1）面向主题（Subject Oriented）的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析，而不是组织机构的日常操作和事务处理。（2）集成（Integrated）的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。（3）时变（Time Variant）的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。（4）非易失（Nonvolatile）的数据集合。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，修改和删除操作很少，通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作：初始化载入和数据访问，因此其数据相对稳定，极少或根本不更新。[page] 2.2数据仓库的类型
数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围，一般可将数据仓库分为下列3种类型：企业数据仓库（EDW）、操作型数据库（ODS）和数据集市（Data Marts）。①企业数据仓库为通用数据仓库，它既含有大量详细的数据，也含有大量累赘的或聚集的数据，这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。②操作型数据库既可以被用来针对工作数据做决策支持，又可用做将数据加载到数据仓库时的过渡区域。与EDW相比，ODS是面向主题和面向综合的，易变的，仅含有目前的、详细的数据，不含有累计的、历史性的数据。③数据集市是为了特定的应用目的或应用范围，而从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。
2.3数据仓库与传统数据库的比较
二者的联系既有联系又有区别。数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较：
（1）出发点不同：数据库是面向事务的设计；数据仓库是面向主题设计的。（2）存储的数据不同：数据库一般存储在线交易数据；数据仓库存储的一般是历史数据。（3）设计规则不同：数据库设计是尽量避免冗余，一般采用符合范式的规则来设计；数据仓库在设计是有意引入冗余，采用反范式的方式来设计。（4）提供的功能不同：数据库是为捕获数据而设计，数据仓库是为分析数据而设计。（5）基本元素不同：数据库的基本元素是事实表，数据仓库的基本元素是维度表。（6）容量不同：数据库在基本容量上要比数据仓库小的多。（7）服务对象不同：数据库是为了高效的事务处理而设计的，服务对象为企业业务处理方面的工作人员；数据仓库是为了分析数据进行决策而设计的，服务对象为企业高层决策人员。
3数据仓库与数据挖掘的关系
当然为了数据挖掘你也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。

G. 何谓数据仓库为什么要建立数据仓库何谓数据挖掘它有哪些方面的功能

何谓数据仓库？为什么要建立数据仓库？
答：数据仓库是一种新的数据处理体系结构，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合，为企业决策支持系统提供所需的集成信息。
建立数据仓库的目的有3个：
一是为了解决企业决策分析中的系统响应问题，数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。
二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据，这是传统事务数据库不能直接提供的。
三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员，需要使用专业的分析工具，对分析结果还要以商业智能的方式进行表现，这是事务数据库不能提供的。

何谓数据挖掘？它有哪些方面的功能？
答：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括：概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

H. 简述数据库数据仓库和数据挖掘三者之间的关系

数据仓库是要集成多种数据源，比如个人财务记录和购物记录，内比如企业的原料、生产、销售的容异构数据库。数据库一般是单一结构的，没办法集成异构源去做一个统一接口，所以在数据分析需求达到宏观规模后才弄出这么个概念来。所谓面向事务和面向主题就是这个意思。事务是数据记录查询的单一任务，主题是数据分析目标的相关数据范畴。

数据仓库是数据挖掘的对象，进行大规模的数据挖掘前先要建立数据仓库，数据挖掘的研究方向有偏向数据库的。

I. 漫谈大数据的思想形成与价值维度

漫谈大数据的思想形成与价值维度

清华基于微博分析获得的大数据幸福指数发现人们周六最幸福，相信大家心情不错，因此今天不谈枯燥的技术。关于大数据的思维、理念、方法论已经被反复消费了，本来我想直接进入交互环节，继挺兄还是要求先有一部分规定动作，我就先自弹自唱几十分钟，既然是漫谈，也不见得扣题，说到哪里是哪里。各位有问题，我可以择时择机插入讨论。
先说大数据思想的形成吧。自从人类开始文字和数字，数据就开始产生。就数据增长曲线而言，极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据：从人类文明曙光初现到2003年一共产生的数据，只相当于2010年两天产生的数据量。而一旦越过拐点，“大数据摩尔定律”的滚滚铁轮下，指数效应爆发：最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中，数学和统计学逐渐发展，人们开始注意对数据的量化分析，在人类进入信息时代以前这样的例子就不胜枚举。比如经济上，黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事，“向林彪学习数据挖掘”的桥段不论真假，其背后量化分析的思想无疑有其现实基础，而这一基础甚至可以回推到2000多年前，孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代，磁带取代穿孔卡片机，启动了数据存储的革命。磁盘驱动器随即发明，它带来的最大想象空间并不是容量，而是随机读写的能力，这一下子解放了数据工作者的思维模式，开始数据的非线性表达和管理。数据库应运而生，从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用)，到网状数据库，再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS)，80年代演变到商业智能(BI)和数据仓库，开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的，第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个：一是基于retaillink的供应链优化，把数据与供应商共享，指导它们的产品设计、生产、定价、配送、营销等整个流程，同时供应商可以优化库存、及时补货;二是购物篮分析，也就是常说的啤酒加尿布。关于啤酒加尿布，几乎所有的营销书都言之凿凿，我告诉大家，是Teradata的一个经理编的，人类历史上从没有发生过，但是，先教育市场，再收获市场，它是有功的。
仅次于沃尔玛的乐购(Tesco)，强在客户关系管理(CRM)，细分客户群，分析其行为和意图，做精准营销。
这些都发生在90年代。00年代时，科研产生了大量的数据，如天文观测、粒子碰撞，数据库大拿吉姆·格雷等提出了第四范式，是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔)，理论(牛顿被苹果砸出灵感，形成经典物理学定律)，模拟(粒子加速太贵，核试验太脏，于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的，开普勒根据前人对行星位置的观测数据拟合出椭圆轨道，就是数据方法。但是到90年代的时候，科研数据实在太多了，数据探索成为显学。在现今的学科里，有一对孪生兄弟，计算XX学和XX信息学，前者是模拟/计算范式，后者是数据范式，如计算生物学和生物信息学。有时候计算XX学包含了数据范式，如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》，引起轩然大波。他主要的观点是有了数据，就不要模型了，或者很难获得具有可解释性的模型，那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。
首先，我们在观察客观世界中采集了三个点的数据，根据这些数据，可以对客观世界有个理论假设，用一个简化的模型来表示，比如说三角形。可以有更多的模型，如四边形，五边形。随着观察的深入，又采集了两个点，这时发现三角形、四边形的模型都是错的，于是确定模型为五边形，这个模型反映的世界就在那个五边形里，殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂，已经无法用简单、可解释的模型来表达，这样，数据本身成了模型，严格地说，数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子，统一的统计学模型取代了各种语言的理论/模型(如语法)，能从英文翻译到法文，就能从瑞典文翻译到中文，只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题，以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然，科学界不认同《理论的终结》，认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据，机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型，知识疆域的上限就是机器线性增长的计算力，它不能扩展到新的空间。在人类历史上，每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右，大数据的浪潮卷起，这些争论迅速被淹没了。看谷歌趋势，”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家，一家是IDC，每年给EMC做digitaluniverse的报告，上升到泽字节范畴(给大家个概念，现在硬盘是太字节，1000太=1拍，阿里、Facebook的数据是几百拍字节，1000拍=1艾，网络是个位数艾字节，谷歌是两位数艾字节，1000艾=1泽);一家是麦肯锡，发布《大数据：创新、竞争和生产力的下一个前沿》;一家是《经济学人》，其中的重要写手是跟老舍同著《大数据时代》的肯尼思?库克耶;还有一家是Gartner，杜撰了3V(大、杂、快)，其实这3V在2001年就已经被编出来了，只不过在大数据语境里有了全新的诠释。
咱们国内，欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维，现在已经被奉为圭臬，但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。现实地讲，1.没有全集数据，数据都在孤岛里;2.全集太贵，鉴于大数据信息密度低，是贫矿，投入产出比不见得好;3.宏观分析中采样还是有用的，盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性，采访火车上的民工得出都买到票的结论不是好采样，现在只做固定电话采样调查也不行了(移动电话是大头)，在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差，更会丢失黑天鹅的信号，因此在全集数据存在且可分析的前提下，全量是首选。全量>好的采样>不均匀的大量。
再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的，但不等于喜欢混杂性。数据清洗比以前更重要，数据失去辨识度、失去有效性，就该扔了。老舍引用谷歌PeterNovig的结论，少数高质量数据+复杂算法被大量低质量数据+简单算法打败，来证明这一思维。Peter的研究是Web文本分析，确实成立。但谷歌的深度学习已经证明这个不完全对，对于信息维度丰富的语音、图片数据，需要大量数据+复杂模型。
最后是要相关性不要因果性。对于大批量的小决策，相关性是有用的，如亚马逊的个性化推荐;而对于小批量的大决策，因果性依然重要。就如中药，只到达了相关性这一步，但它没有可解释性，无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后，要做随机对照试验，把所有可能导致“治愈的果”的干扰因素排除，获得因果性和可解释性。在商业决策上也是一样，相关性只是开始，它取代了拍脑袋、直觉获得的假设，而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要，动机不代表行为。预测性分析也一样，不然警察会预测人犯罪，保险公司会预测人生病，社会很麻烦。大数据算法极大影响了我们的生活，有时候会觉得挺悲哀的，是算法觉得了你贷不贷得到款，谷歌每调整一次算法，很多在线商业就会受到影响，因为被排到后面去了。
下面时间不多了，关于价值维度，我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外，还有数据本身的价值化。这一点不赘述了，引用马云的话吧，“信息的出发点是我认为我比别人聪明，数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人，而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?
再贴上解释。“见微”与“知著”在Volume的空间维度。小数据见微，作个人刻画，我曾用《一代宗师》中“见自己”形容之;大数据知著，反映自然和群体的特征和趋势，我以“见天地、见众生”比喻之。“著”推动“微”(如把人群细分为buckets)，又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“著”又反映了时间维度，数据刚产生时个人价值最大，随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。当下在时间原点，是闪念之间的实时智慧，结合过往(负轴)、预测未来(正轴)，可以皆明，即获得perpetual智慧。《西游记》里形容真假孙悟空，一个是“知天时、通变化”，一个是“知前后、万物皆明”，正好对应。为达到皆明，需要全量分析、预测分析和处方式分析(prescriptiveanalytics，为让设定的未来发生，需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据，辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界，从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知著，对宏观现象规律的研究早已有之，大数据的知著有两个新特点，一是从采样到全量，比如央视去年“你幸福吗”的调查，是街头的采样，前不久《中国经济生活大调查》关于幸福城市排名的结论，是基于10万份问卷(17个问题)的采样，而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与)，是基于新浪微博数据的全集(托老王的福)，这些数据是人们的自然表达(而不是面对问卷时的被动应对)，同时又有上下文语境，因此更真实、也更有解释性。北上广不幸福，是因为空气还是房价或教育，在微博上更容易传播的积极情绪还是消极情绪，数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”，是过头话，采样和传统的统计分析方法对数据分布采用一些简化的模型，这些模型把异常和长尾忽略了，全量的分析可以看到黑天鹅的身影，听到长尾的声音。
另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学，已经有一批数学家、物理学家成了经济学家、宽客，现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子，它通过几十万用户的数据，主要是反映投资活跃程度和投资收益水平的指标，建立一个量化模型来推知整体投资景气度。
再看见微，我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体，进入到微观和抽象，这时大数据就很重要了。我们更关注社会科学，那是先微观、具体，再宏观、抽象，许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和，我们原来看到是一张抽象派的画，看不懂，通过客户细分慢慢可以形成一张大致看得懂的现实图景，不过是马赛克的，再通过微分、甚至定位个人，形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念)，最简单的是高收入、低收入这类反映背景的，再有就是反映行为和生活方式的，如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇，Nobodywantstobenobodytoday。
了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上，就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼，东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角)，他还要更细分，摇摆州每一个郡每一个年龄段每一个时间段在看什么电视，摇摆州(俄亥俄)1%选民随时间变化的投票倾向，摇摆选民在Reddit上还是Facebook上，都在其掌握之中。
对于企业来说，要从以产品为中心，转到以客户(买单者)甚至用户(使用者)为中心，从关注用户背景到关注其行为、意图和意向，从关注交易形成转到关注每一个交互点/触点，用户是从什么路径发现我的产品的，决定之前又做了什么，买了以后又有什么反馈，是通过网页、还是QQ、微博或是微信。
再讲第三个，当下。时间是金钱，股票交易就是快鱼吃慢鱼，用免费股票交易软件有几秒的延迟，而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命，美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警，已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮，而是结帐完的小票，真正有价值的是当顾客还拎着购物篮，在浏览、试用、选择商品的时候，在每一个触点影响他/她的选择。数据价值具有半衰期，最新鲜的时候个性化价值最大，渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几，原来10年一次的人口普查就是刻舟求剑，而现在东莞一出事网络迁徙图就反映出来了。当然，当下并不一定是完全准确的，其实如果没有更多、更久的数据，匆忙对网络迁徙图解读是可能陷入误区的。
第四个，皆明。时间有限，就简单说了。就是从放马后炮到料事如神(predictiveanalytics)，从料事如神到运筹帷幄(prescriptiveanalytics)，只知道有东风是预测分析，确定要借箭的目标、并给出处方利用草船来借，就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户，需要处方性分析。
辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子，我们的GPS有几十米的误差，但与地图数据结合就能做到精确，GPS在城市的高楼中没有信号，可以与惯性导航结合。
晓意涉及到大数据下的机器智能，是个大问题，也不展开了。贴一段我的文章：有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献，它在大数据背景下出现了传播的误区：一、它其实不是大数据，而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来，奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是，在运用数量化工具的同时，比恩也增加了球探的费用，军功章里有机器的一半，也有人的一半，因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录，以及机器学习(尤其是深度学习)晓意能力的增强，可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画，当这些应用于人力资源，已经或多或少体现了球探承担的作用。

以上是小编为大家分享的关于漫谈大数据的思想形成与价值维度的相关内容，更多信息可以关注环球青藤分享更多干货

导航:首页 > 网络数据 > 漫谈大数据仓库与挖掘系统

漫谈大数据仓库与挖掘系统

与漫谈大数据仓库与挖掘系统相关的资料

友情链接