整合建立大数据平台_如何打造高性能大数据分析平台

A. 公司级大数据处理平台的构建需要做哪些准备

按照大数据处理的流程，分为数据采集、数据存储、数据提取、数据挖掘、数据分析，数据展现和应用。以下是链家网的案例，采用Hadoop集群建立BI和报表平台，以及采用业务员自助分析和数据挖掘、数据分析人员借用大数据平台的集群运算能力挖掘数据的双模式业务。

除此之外，更传统的企业对于大数据平台的应用也是基于以上的流程。

引用某大数据平台建设的案例，该机构是国家性研究机构，建立大数据平台主要收集市场数据，出台国家级的研究性报告，用于辅助市场决策。

从建设的及流程开始讲起吧，算是提供一个方法论。

第一步是数据整合，对多源多类型的数据进行整合，实现数据共享。目前以帆软报表FineReport为数据处理工具，以SQLServer为数据库存储平台，整合信息中心常用业务数据，常用的业务数据包括价格、进出口以及平衡表等。

第二步就是数据的抓取、处理激毕和分析并自动化生成系列产品报告，实现目标是解放生产力御盯。把业务人员从采集、整理、处理数据的体力劳动中解放出来，集中精力于市场深度分析研究、模型建立镇铅和。本质上还是数据整合，不同地方是数据自动采集，并依据构建的模型。技术选型：FineReport+FineBI+Python+Kettle(ETL工具)+SQLServer。

第三步是数据挖掘，目标是构建行业模型和行业计量模型实现科学决策。

依托一期、二期整合的数据和大数据，接下来将构建大数据能力，提供标准化的服务能力。但粮油的分析模型、行业积累模型，是一种因素模型、经验模型，一定程度上依赖于分析师对市场的看法，这个模型分析结果需要分析师经验和直觉来判断，技术上要到位，所以这里通过帆软报表FineReport和商业智能FineBI的结果,从数据报表、数据分析、数据挖掘三个层次，把数据转化为信息把数据转化为信息，使得业务人员能够利用这些信息，辅助决策，这就是商业智能主要解决的问题。无论在哪个层次，核心目标就是“把数据转化为信息”。

B. 鏁板瓧鍖栫暅鐗т笟鍙戝睍鍦ㄦ惌寤哄ぇ鏁版嵁骞冲彴鏂归潰闇瑕佹敞鎰忎粈涔

鏁板瓧鍖栫暅鐗т笟鍙戝睍鍦ㄦ惌寤哄ぇ鏁版嵁骞冲彴鏂归潰闇瑕佹敞鎰忎互涓嬪嚑涓鍏抽敭瑕佺礌锛氭暟鎹鏀堕泦涓庢暣鍚堛佹暟鎹鍒嗘瀽涓庡勭悊銆佹暟鎹瀹夊叏涓庨殣绉佷繚鎶わ紝浠ュ強鏁版嵁鍏变韩涓庡悎浣溿
棣栧厛锛屾暟鎹鏀堕泦涓庢暣鍚堟槸鎼寤哄ぇ鏁版嵁骞冲彴鐨勫熀纭銆傚湪鐣滅墽涓氫腑锛岄渶瑕佹敹闆嗗悇绉嶆暟鎹锛屽寘鎷鍔ㄧ墿鐢熼暱鎯呭喌銆侀ゲ鏂欐秷鑰椼佺柧鐥呴槻娌荤瓑銆傝繖浜涙暟鎹鏉ユ簮浜庝笉鍚岀殑娓犻亾鍜岃惧囷紝濡備紶鎰熷櫒銆佺洃鎺ф憚鍍忓ご銆佺Щ鍔ㄨ惧囩瓑銆傚洜姝わ紝瑕佺‘淇濇暟鎹鐨勫噯纭鎬у拰鍙闈犳э紝鍚屾椂鑰冭檻濡備綍鏈夋晥鍦版暣鍚堣繖浜涙暟鎹锛屼互渚胯繘琛屽悗缁鐨勫垎鏋愬拰鍒╃敤銆
鍏舵★紝鏁版嵁鍒嗘瀽涓庡勭悊鏄澶ф暟鎹骞冲彴鐨勬牳蹇冨姛鑳姐傞氳繃鏁版嵁鍒嗘瀽锛屽彲浠ユ彮绀虹暅鐗т笟鐢熶骇涓鐨勮勫緥鍜岃秼鍔匡紝涓哄喅绛栨彁渚涙敮鎸併備緥濡傦紝閫氳繃鍒嗘瀽鍔ㄧ墿鐨勭敓闀挎暟鎹锛屽彲浠ラ勬祴鍏舵湭鏉ョ殑鐢熼暱鎬ц兘鍜屼骇鑲夐噺锛屼粠鑰屼紭鍖栭ゲ鏂欓厤鏂瑰拰楗插吇绠＄悊銆傛ゅ栵紝鏁版嵁澶勭悊鎶鏈濡傛暟鎹鎸栨帢銆佹満鍣ㄥ︿範绛変篃鍙浠ョ敤浜庡彂鐜板紓甯告儏鍐靛拰瑙ｅ喅闂棰樸
鐒跺悗锛屾暟鎹瀹夊叏涓庨殣绉佷繚鎶ゆ槸鎼寤哄ぇ鏁版嵁骞冲彴鏃跺繀椤婚噸瑙嗙殑闂棰樸傜暅鐗т笟鏁版嵁娑夊強鍒颁紒涓氱殑鍟嗕笟鏈哄瘑鍜屽啘鎴风殑涓浜洪殣绉侊紝涓鏃︽硠闇诧紝鍙鑳戒細閫犳垚缁忔祹鎹熷け鍜屼俊浠诲嵄鏈恒傚洜姝わ紝闇瑕侀氳繃鎶鏈鎵嬫靛拰绠＄悊鎺鏂斤紝纭淇濇暟鎹鐨勫畨鍏ㄦу拰闅愮佷繚鎶ゃ備緥濡傦紝閲囩敤鍔犲瘑浼犺緭鍜屽瓨鍌ㄦ暟鎹锛屽缓绔嬫暟鎹璁块棶鏉冮檺绠＄悊鍒跺害绛夈
鏈鍚庯紝鏁版嵁鍏变韩涓庡悎浣滄槸鎺ㄥ姩鏁板瓧鍖栫暅鐗т笟鍙戝睍鐨勫叧閿銆備笉鍚屼紒涓氬拰鏈烘瀯涔嬮棿鍙浠ラ氳繃鍏变韩鏁版嵁锛屽疄鐜拌祫婧愪紭鍖栭厤缃鍜屽崗鍚屽垱鏂般備緥濡傦紝绉戠爺鏈烘瀯鍙浠ヨ幏鍙栧吇娈栦紒涓氱殑鏁版嵁锛屽紑灞曠戝︾爺绌跺拰鎶鏈寮鍙戯紝涓轰紒涓氭彁渚涙洿濂界殑鎶鏈鏀鎸佸拰鏈嶅姟銆
缁间笂鎵杩帮紝鏁板瓧鍖栫暅鐗т笟鍙戝睍鍦ㄦ惌寤哄ぇ鏁版嵁骞冲彴鏃堕渶瑕佹敞鎰忔暟鎹鏀堕泦涓庢暣鍚堛佹暟鎹鍒嗘瀽涓庡勭悊銆佹暟鎹瀹夊叏涓庨殣绉佷繚鎶わ紝浠ュ強鏁版嵁鍏变韩涓庡悎浣溿傝繖浜涘洜绱犲逛簬鎻愰珮鐣滅墽涓氱敓浜ф晥鐜囥侀檷浣庢垚鏈銆佹彁鍗囦骇鍝佽川閲忕瓑鏂归潰鍏锋湁閲嶈佹剰涔夈

C. 大数据工程师进行数据平台建设有哪些方案

【导语】数据平台其实在企业发展的进程中都是存在的，在进入到数据爆发式增加的大数据时代，传统的企业级数据库，在数据管理应用上，并不能完全满意各项需求。就企业自身而言，需求更加契合需求的数据平台建设方案，那么大数据工程师进行数据平台建设，有哪些方案呢?下面就来细细了解一下吧。

1、敏捷型数据集市

数据集市也是常见的一种方案，底层的数据产品与分析层绑定，使得应用层可以直接对底层数据产品中的数据进行拖拽式分析。数据集市，主要的优势在于对业务数据进行简单的、快速的整合，实现敏捷建模，并且大幅提升数据的处理速度。

2、常规数据仓库

数据仓库的重点，是对数据进行整合，同时也是对业务逻辑的一个梳理。数据仓库虽然也可以打包成SAAS那种Cube一类的东西来提升数据的读取性能，但是数据仓库的作用，更多的是为了解决公司的业务问题。

3、Hadoop分布式系统架构

当然，大规模分布式系统架构，Hadoop依然站在不可代替的关键位置上。雅虎、Facebook、网络、淘宝等国内外大企，最初都是基于Hadoop来展开的。

Hadoop生态体系庞大，企业基于Hadoop所能实现的需求，也不仅限于数据分析，也包括机器学习、数据挖掘、实时系统等。企业搭建大数据系统平台，Hadoop的大数据处理能力、高可靠性、高容错性、开源性以及低成本，都使得它成为首选。

4、MPP(大规模并行处理)架构

进入大数据时代以来，传统的主机计算模式已经不能满足需求了，分布式存储和分布式计算才是王道。大家所熟悉的Hadoop
MapRece框架以及MPP计算框架，都是基于这一背景产生。

MPP架构的代表产品，就是Greenplum。Greenplum的数据库引擎是基于Postgresql的，并且通过Interconnnect神器实现了对同一个集群中多个Postgresql实例的高效协同和并行计算。

关于大数据工程师进行数据平台建设方案的有关内容，就给大家介绍到这里了，中国社会发展至今，大数据的应用正在逐渐普及，所以未来前景不可估量，希望想从事此行业的人员能够合理选择。

D. 搭建大数据平台的具体步骤是什么

1、操作体系的挑选

操作体系一般使用开源版的RedHat、Centos或许Debian作为底层的构建渠道，要根据大数据渠道所要建立的数据剖析东西能够支撑的体系，正确的挑选操作体系的版本。

2、建立Hadoop集群

Hadoop作为一个开发和运行处理大规模数据的软件渠道，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop结构中最核心的规划是HDFS和MapRece，HDFS是一个高度容错性的体系，合适布置在廉价的机器上，能够供给高吞吐量的数据访问，适用于那些有着超大数据集的应用程序;MapRece是一套能够从海量的数据中提取数据最终回来成果集的编程模型。在生产实践应用中，Hadoop非常合适应用于大数据存储和大数据的剖析应用，合适服务于几千台到几万台大的服务器的集群运行，支撑PB级别的存储容量。

3、挑选数据接入和预处理东西

面临各种来源的数据，数据接入便是将这些零散的数据整合在一起，归纳起来进行剖析。数据接入首要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的东西有Flume，Logstash，NDC(网易数据运河体系)，sqoop等。

4、数据存储

除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value体系，布置在HDFS上，与Hadoop一样，HBase的目标首要是依靠横向扩展，通过不断的添加廉价的商用服务器，添加计算和存储才能。同时hadoop的资源管理器Yarn，能够为上层应用供给统一的资源管理和调度，为集群在利用率、资源统一等方面带来巨大的优点。

5、挑选数据挖掘东西

Hive能够将结构化的数据映射为一张数据库表，并供给HQL的查询功能，它是建立在Hadoop之上的数据仓库根底架构，是为了削减MapRece编写工作的批处理体系，它的出现能够让那些通晓SQL技术、可是不熟悉MapRece、编程才能较弱和不擅长java的用户能够在HDFS大规模数据集上很好的利用SQL言语查询、汇总、剖析数据。

6、数据的可视化以及输出API

关于处理得到的数据能够对接主流的BI体系，比如国外的Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数(可免费试用)等，将成果进行可视化，用于决策剖析;或许回流到线上，支撑线上业务的开展。

E. 如何搭建大数据分析平台

1、搭建大数据分析平台的背景
在大数据之前，BI就已经存在很久了，简单把大数据等同于BI，明显是不恰当的。但两者又是紧密关联的，相辅相成的。BI是达成业务管理的应用工具，没有BI，大数据就没有了价值转化的工具，就无法把数据的价值呈现给用户，也就无法有效地支撑企业经营管理决策；大数据则是基础，没有大数据，BI就失去了存在的基础，没有办法快速、实时、高效地处理数据，支撑应用。所以，数据的价值发挥，大数据平台的建设，必然是囊括了大数据处理与BI应用分析建设的。
2、大数据分析平台的特点
数据摄取、数据管理、ETL和数据仓库：提供有效的数据入库与管理数据用于管理作为一种宝贵的资源。
Hadoop系统功能：提供海量存储的任何类型的数据，大量处理功率和处理能力几乎是无限并行工作或任务
流计算在拉动特征：用于流的数据、处理数据并将这些流作为单个流。
内容管理特征：综合生命周期管理和文档内容。
数据治理综合：安全、治理和合规解决方案来保护数据。
3、怎样去搭建大数据分析平台
大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具，实现对数据的挖掘和分析，一个大数据分析平台涉及到的组件众多，如何将其有机地结合起来，完成海量数据的挖掘是一项复杂的工作。我们可以利用亿信一站式数据分析平台（ABI），可以快速构建大数据分析平台，该平台集合了从数据源接入到ETL和数据仓库进行数据整合，再到数据分析，全部在一个平台上完成。
亿信一站式数据分析平台（ABI）囊括了企业全部所需的大数据分析工具。ABI可以对各类业务进行前瞻性预测分析，并为企业各层次用户提供统一的决策分析支持，提升数据共享与流转能力。

F. 如何建立一个完整可用的安全大数据平台

“
要建立一个大数据系统，我们需要从数据流的源头跟踪到最后有价值的输出，并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择，也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外，没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患。

1
计算框架篇
大数据的价值

只有在能指导人们做出有价值的决定时，数据才能体现其自身的价值。因此，大数据技术要服务于实际的用途，才是有意义的。一般来说，大数据可以从以下三个方面指导人们做出有价值的决定：

报表生成（比如根据用户历史点击行为的跟踪和综合分析、应用程序活跃程度和用户粘性计算等）；

诊断分析（例如分析为何用户粘性下降、根据日志分析系统为何性能下降、垃圾邮件以及病毒的特征检测等）；

决策（例如个性化新闻阅读或歌曲推荐、预测增加哪些功能能增加用户粘性、帮助广告主进行广告精准投放、设定垃圾邮件和病毒拦截策略等）。

图 1

进一步来看，大数据技术从以下三个方面解决了传统技术难以达成的目标（如图1）：

在历史数据上的低延迟（交互式）查询，目标是加快决策过程和时间，例如分析一个站点为何变缓慢并尝试修复它；

在实时数据上的低延迟查询，目的是帮助用户和应用程序在实时数据上做出决策，例如实时检测并阻拦病毒蠕虫（一个病毒蠕虫可以在1.3秒内攻击1百万台主机）；

更加精细高级的数据处理算法，这可以帮助用户做出“更好”的决策，例如图数据处理、异常点检测、趋势分析及其他机器学习算法。

蛋糕模式

从将数据转换成价值的角度来说，在Hadoop生态圈十年蓬勃成长的过程中，YARN和Spark这二者可以算得上是里程碑事件。Yarn的出现使得集群资源管理和数据处理流水线分离，大大革新并推动了大数据应用层面各种框架的发展（SQL on Hadoop框架, 流数据，图数据，机器学习）。

它使得用户不再受到MapRece开发模式的约束，而是可以创建种类更为丰富的分布式应用程序，并让各类应用程序运行在统一的架构上，消除了为其他框架维护独有资源的开销。就好比一个多层蛋糕，下面两层是HDFS和Yarn, 而MapRece就只是蛋糕上层的一根蜡烛而已，在蛋糕上还能插各式各样的蜡烛。

在这一架构体系中，总体数据处理分析作业分三块（图2），在HBase上做交互式查询（Apache Phoenix, Cloudera Impala等），在历史数据集上编写MapRece程序抑或利用Hive等做批处理业务，另外对于实时流数据分析Apache Storm则会是一种标准选择方案。

虽然Yarn的出现极大地丰富了Hadoop生态圈的应用场景，但仍存有两个显而易见的挑战：一是在一个平台上需要维护三个开发堆栈；二是在不同框架内很难共享数据，比如很难在一个框架内对流数据做交互式查询。这也意味着我们需要一个更为统一和支持更好抽象的计算框架的出现。

图 2

一统江湖

Spark的出现使得批处理任务，交互式查询，实时流数据处理被整合到一个统一的框架内（图3），同时Spark和现有的开源生态系统也能够很好地兼容（Hadoop, HDFS, Yarn, Hive, Flume）。通过启用内存分布数据集，优化迭代工作负载，用户能够更简单地操作数据，并在此基础上开发更为精细的算法，如机器学习和图算法等。

有三个最主要的原因促使Spark目前成为了时下最火的大数据开源社区（拥有超过来自200多个公司的800多个contributors）：

Spark可以扩展部署到超过8000节点并处理PB级别的数据，同时也提供了很多不错的工具供应用开发者进行管理和部署；

Spark提供了一个交互式shell供开发者可以用Scala或者Python即时性试验不同的功能；

Spark提供了很多内置函数使得开发者能够比较容易地写出低耦合的并且能够并发执行的代码，这样开发人员就更能集中精力地为用户提供更多的业务功能而不是花费时间在优化并行化代码之上。

当然Spark也和当年的MapRece一样不是万灵药，比如对实时性要求很高的流数据处理上Apache Storm还是被作为主流选择，因为Spark Streaming实际上是microbatch（将一个流数据按时间片切成batch,每个batch提交一个job）而不是事件触发实时系统，所以虽然支持者们认为microbatch在系统延时性上贡献并不多，但在生产环境中和Apache Storm相比还不是特别能满足对低延时要求很高的应用场景。

比如在实践过程中，如果统计每条消息的平均处理时间，很容易达到毫秒级别，但一旦统计类似service assurance（确保某条消息在毫秒基本能被处理完成）的指标，系统的瓶颈有时还是不能避免。

但同时我们不能不注意到，在许多用例当中，与流数据的交互以及和静态数据集的结合是很有必要的, 例如我们需要在静态数据集上进行分类器的模型计算，并在已有分类器模型的基础上，对实时进入系统的流数据进行交互计算来判定类别。

由于Spark的系统设计对各类工作（批处理、流处理以及交互式工作）进行了一个共有抽象，并且生态圈内延伸出了许多丰富的库（MLlib机器学习库、SQL语言API、GraphX）, 使得用户可以在每一批流数据上进行灵活的Spark相关操作，在开发上提供了许多便利。

Spark的成熟使得Hadoop生态圈在短短一年之间发生了翻天覆地的变化， Cloudera和Hortonworks纷纷加入了Spark阵营，而Hadoop项目群中除了Yarn之外已经没有项目是必须的了（虽然Mesos已在一些场合替代了Yarn）, 因为就连HDFS，Spark都可以不依赖。但很多时候我们仍然需要像Impala这样的依赖分布式文件系统的MPP解决方案并利用Hive管理文件到表的映射，因此Hadoop传统生态圈依然有很强的生命力。

另外在这里简要对比一下交互式分析任务中各类SQL on Hadoop框架，因为这也是我们在实际项目实施中经常遇到的问题。我们主要将注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中历史最短的，论文发表在15年的SIGMOD会议上，原文对比了数据仓库上不同类型的查询在Shark（Spark最早对SQL接口提供的支持）、Spark SQL和Impala上的性能比较。

也就是说，虽然Spark SQL在Shark的基础上利用Catalyst optimizer在代码生成上做了很多优化，但总体性能还是比不上Impala, 尤其是当做join操作的时候， Impala可以利用“predicate pushdown”更早对表进行选择操作从而提高性能。

不过Spark SQL的Catalyst optimizer一直在持续优化中，相信未来会有更多更好的进展。Cloudera的Benchmark评测中Impala一直比其他SQL on Hadoop框架性能更加优越，但同时Hortonworks评测则指出虽然单个数据仓库查询Impala可以在很短的时间内完成，但是一旦并发多个查询Hive on Tez的优势就展示出来。另外Hive on Tez在SQL表达能力也要比Impala更强（主要是因为Impala的嵌套存储模型导致的），因此根据不同的场景选取不同的解决方案是很有必要的。

图 3

各领风骚抑或代有才人出？

近一年比较吸引人眼球的Apache Flink（与Spark一样已有5年历史，前身已经是柏林理工大学一个研究性项目，被其拥趸推崇为继MapRece, Yarn，Spark之后第四代大数据分析处理框架）。与Spark相反，Flink是一个真正的实时流数据处理系统，它将批处理看作是流数据的特例，同Spark一样它也在尝试建立一个统一的平台运行批量，流数据，交互式作业以及机器学习，图算法等应用。

Flink有一些设计思路是明显区别于Spark的，一个典型的例子是内存管理，Flink从一开始就坚持自己精确的控制内存使用并且直接操作二进制数据，而Spark一直到1.5版本都还是试用java的内存管理来做数据缓存，这也导致了Spark很容易遭受OOM以及JVM GC带来的性能损失。

但是从另外一个角度来说, Spark中的RDD在运行时被存成java objects的设计模式也大大降低了用户编程设计门槛，同时随着Tungsten项目的引入，Spark现在也逐渐转向自身的内存管理，具体表现为Spark生态圈内从传统的围绕RDD（分布式java对象集合）为核心的开发逐渐转向以DataFrame(分布式行对象集合)为核心。

总的来说，这两个生态圈目前都在互相学习，Flink的设计基因更为超前一些，但Spark社区活跃度大很多，发展到目前毫无疑问是更为成熟的选择，比如对数据源的支持（HBase, Cassandra, Parquet, JSON, ORC）更为丰富以及更为统一简洁的计算表示。另一方面，Apache Flink作为一个由欧洲大陆发起的项目，目前已经拥有来自北美、欧洲以及亚洲的许多贡献者，这是否能够一改欧洲在开源世界中一贯的被动角色，我们将在未来拭目以待。

2
NoSQL数据库篇
NoSQL数据库在主流选择上依旧集中在MongoDB, HBase和Cassandra这三者之间。在所有的NoSQL选择中，用C 编写的MongoDB几乎应该是开发者最快也最易部署的选择。MongoDB是一个面向文档的数据库，每个文档／记录／数据（包括爬取的网页数据及其他大型对象如视频等）是以一种BSON（Binary JSON）的二进制数据格式存储, 这使得MongoDB并不需要事先定义任何模式, 也就是模式自由（可以把完全不同结构的记录放在同一个数据库里）。

MongoDB对于完全索引的支持在应用上是很方便的，同时也具备一般NoSQL分布式数据库中可扩展，支持复制和故障恢复等功能。 MongoDB一般应用于高度伸缩性的缓存及大尺寸的JSON数据存储业务中，但不能执行“JOIN”操作，而且数据占用空间也比较大，最被用户诟病的就是由于MongoDB提供的是数据库级锁粒度导致在一些情况下建索引操作会引发整个数据库阻塞。一般来说，MongoDB完全可以满足一些快速迭代的中小型项目的需求。

下面来主要谈谈Cassandra和HBase之间的比较选择。Cassandra和HBase有着截然不同的基因血统。HBase和其底层依赖的系统架构源自于著名的Google FileSystem（发表于2003年）和Google BigTable设计（发表于2006年），其克服了HDFS注重吞吐量却牺牲I/O的缺点，提供了一个存储中间层使得用户或者应用程序可以随机读写数据。

具体来说，HBase的更新和删除操作实际上是先发生在内存MemStore中，当MemStore满了以后会Flush到StoreFile, 之后当StoreFile文件数量增长到一定阈值后会触发Compact合并操作，因此HBase的更新操作其实是不断追加的操作，而最终所有更新和删除数据的持久化操作都是在之后Compact过程中进行的。

这使得应用程序在向内存MemStore写入数据后，所做的修改马上就能得到反映，用户读到的数据绝不会是陈旧的数据，保证了I/O高性能和数据完全一致性；另一方面来说， HBase基于Hadoop生态系统的基因就已经决定了他自身的高度可扩展性、容错性。

在数据模型上，Cassandra和HBase类似实现了一个key-value提供面向列式存储服务，其系统设计参考了 Amazon Dynamo (发表于2007年) 分布式哈希（DHT）的P2P结构（实际上大部分Cassandra的初始工作都是由两位从Amazon的Dynamo组跳槽到Facebook的工程师完成)，同样具有很高的可扩展性和容错性等特点。

除此之外，相对HBase的主从结构，Cassandra去中心化的P2P结构能够更简单地部署和维护，比如增加一台机器只需告知Cassandra系统新节点在哪，剩下的交给系统完成就行了。同时，Cassandra对多数据中心的支持也更好，如果需要在多个数据中心进行数据迁移Cassandra会是一个更优的选择。

Eric Brewer教授提出的经典CAP理论认为任何基于网络的数据共享系统，最多只能满足数据一致性、可用性、分区容忍性三要素中的两个要素。实际分布式系统的设计过程往往都是在一致性与可用性上进行取舍，相比于HBase数据完全一致性的系统设计，Cassandra选择了在优先考虑数据可用性的基础上让用户自己根据应用程序需求决定系统一致性级别。

比如：用户可以配置QUONUM参数来决定系统需要几个节点返回数据才能向客户端做出响应，ONE指只要有一个节点返回数据就可以对客户端做出响应，ALL指等于数据复制份数的所有节点都返回结果才能向客户端做出响应，对于数据一致性要求不是特别高的可以选择ONE，它是最快的一种方式。

从基因和发展历史上来说，HBase更适合用做数据仓库和大规模数据处理与分析（比如对网页数据建立索引），而Cassandra则更适合用作实时事务和交互式查询服务。Cassandra在国外市场占有比例和发展要远比国内红火，在不少权威测评网站上排名都已经超过了HBase。目前Apache Cassandra的商业化版本主要由软件公司DataStax进行开发和销售推广。另外还有一些NoSQL分布式数据库如Riak, CouchDB也都在各自支持的厂商推动下取得了不错的发展。

虽然我们也考虑到了HBase在实际应用中的不便之处比如对二级索引的支持程度不够（只支持通过单个行键访问，通过行键的范围查询，全表扫描），不过在明略的大数据基础平台上，目前整合的是依然是HBase。

理由也很简单，HBase出身就与Hadoop的生态系统紧密集成，其能够很容易与其他SQL on Hadoop框架（Cloudera Impala, Apache Phoenix, or Hive on Tez）进行整合，而不需要重新部署一套分布式数据库系统，而且可以很方便地将同样的数据内容在同一个生态系统中根据不同框架需要来变换存储格式（比如存储成Hive表或者Parquet格式）。

我们在很多项目中都有需要用到多种SQL on Hadoop框架，来应对不同应用场景的情况，也体会到了在同一生态系统下部署多种框架的简便性。但同时我们也遇到了一些问题，因为HBase项目本身与HDFS和Zookeeper系统分别是由不同开源团队进行维护的，所以在系统整合时我们需要先对HBase所依赖的其他模块进行设置再对HBase进行配置，在一定程度上降低了系统维护的友好性。

目前我们也已经在考虑将Cassandra应用到一些新的客户项目中，因为很多企业级的应用都需要将线上线下数据库进行分离，HBase更适合存储离线处理的结果和数据仓库，而更适合用作实时事务和并发交互性能更好的Cassandra作为线上服务数据库会是一种很好的选择。

3
大数据安全篇
随着越来越多各式各样的数据被存储在大数据系统中，任何对企业级数据的破坏都是灾难性的，从侵犯隐私到监管违规，甚至会造成公司品牌的破坏并最终影响到股东收益。给大数据系统提供全面且有效的安全解决方案的需求已经十分迫切：

大数据系统存储着许多重要且敏感的数据，这些数据是企业长久以来的财富

与大数据系统互动的外部系统是动态变化的，这会给系统引入新的安全隐患

在一个企业的内部，不同Business Units会用不同的方式与大数据系统进行交互，比如线上的系统会实时给集群推送数据、数据科学家团队则需要分析存储在数据仓库内的历史数据、运维团队则会需要对大数据系统拥有管理权限。

因此为了保护公司业务、客户、财务和名誉免于被侵害，大数据系统运维团队必须将系统安全高度提高到和其他遗留系统一样的级别。同时大数据系统并不意味着引入大的安全隐患，通过精细完整的设计，仍然能够把一些传统的系统安全解决方案对接到最新的大数据集群系统中。

一般来说，一个完整的企业级安全框架包括五个部分：

Administration: 大数据集群系统的集中式管理，设定全局一致的安全策略

Authentication: 对用户和系统的认证

Authorization：授权个人用户和组对数据的访问权限

Audit：维护数据访问的日志记录

Data Protection：数据脱敏和加密以达到保护数据的目的

系统管理员要能够提供覆盖以上五个部分的企业级安全基础设施，否则任何一环的缺失都可能给整个系统引入安全性风险。

在大数据系统安全集中式管理平台这块，由Hortonworks推出的开源项目Apache Ranger就可以十分全面地为用户提供Hadoop生态圈的集中安全策略的管理，并解决授权(Authorization)和审计(Audit)。例如，运维管理员可以轻松地为个人用户和组对文件、数据等的访问策略，然后审计对数据源的访问。

与Ranger提供相似功能的还有Cloudera推出的Apache Sentry项目，相比较而言Ranger的功能会更全面一些。

而在认证（Authentication）方面, 一种普遍采用的解决方案是将基于Kerberos的认证方案对接到企业内部的LDAP环境中， Kerberos也是唯一为Hadoop全面实施的验证技术。

另外值得一提的是Apache Knox Gateway项目，与Ranger提高集群内部组件以及用户互相访问的安全不同，Knox提供的是Hadoop集群与外界的唯一交互接口，也就是说所有与集群交互的REST API都通过Knox处理。这样，Knox就给大数据系统提供了一个很好的基于边缘的安全（perimeter-based security）。

基于以上提到的五个安全指标和Hadoop生态圈安全相关的开源项目，已经足已证明基于Hadoop的大数据平台我们是能够构建一个集中、一致、全面且有效的安全解决方案。
我市再ITjob管网上面找的

G. 企业的大数据分析平台应该如何构建

①确认数据分析方向。比如是分析社交数据，还是电商数据，亦或者是视频数据，或者搜索数据。
②确认数据来源。比如来自腾讯，来自网络，来自阿里巴巴，来自实体店。
③数据分析师，去分析你获取的数据。

H. 怎么搭建大数据分析平台

未至科技数据中心解决方案是以组织价值链分析模型为理论指导，结合组织战略规版划和面向对象权的方法论，对组织信息化战略进行规划重造立足数据，以数据为基础建立组织信息化标准，提供面向数据采集、处理、挖掘、分析、服务为组织提供一整套的基础解决方案。未至数据中心解决方案采用了当前先进的大数据技术，基于Hadoop架构，利用HDFS、Hive、Impala等大数据技术架构组件和公司自有ETL工具等中间件产品，建立了组织内部高性能、高效率的信息资源大数据服务平台，实现组织内数亿条以上数据的秒级实时查询、更新、调用、分析等信息资源服务。未至数据中心解决方案将，为公安、教育、旅游、住建等各行业业务数据中心、城市公共基础数据库平台、行业部门信息资源基础数据库建设和数据资源规划、管理等业务提供了一体化的解决方案。

I. 如何打造高性能大数据分析平台

大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时，如果大数据分析系统无法在第一时间为运营决策提供关键数据，那么这样的大数据分析系统一文不值。本文将从技术无关的角度讨论一些提高性能的方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则（例如数据提取，数据清洗，处理，存储，以及介绍）。本文应作为一个通用准则，以确保最终的大数据分析平台能满足性能要求。

1. 大数据是什么？

大数据是最近IT界最常用的术语之一。然而对大数据的定义也不尽相同，所有已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。大数据系统通常被认为具有数据的五个主要特征，通常称为数据的5 Vs。分别是大规模，多样性，高效性、准确性和价值性。
互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果真的想做，可以来这里，这个手技的开始数字是一八七中间的是三儿零最后的是一四二五零，按照顺序组合起来就可以找到，想说的是，除非想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了。

据Gartner称，大规模可以被定义为“在本（地）机数据采集和处理技术能力不足以为用户带来商业价值。当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案。

这种大规模的数据没将不仅仅是来自于现有的数据源，同时也会来自于一些新兴的数据源，例如常规（手持、工业）设备，日志，汽车等，当然包括结构化的和非结构化的数据。

据Gartner称，多样性可以定义如下：“高度变异的信息资产，在生产和消费时不进行严格定义的包括多种形式、类型和结构的组合。同时还包括以前的历史数据，由于技术的变革历史数据同样也成为多样性数据之一 “。

高效性可以被定义为来自不同源的数据到达的速度。从各种设备，传感器和其他有组织和无组织的数据流都在不断进入IT系统。由此，实时分析和对于该数据的解释（展示）的能力也应该随之增加。

根据Gartner，高效性可以被定义如下：“高速的数据流I/O(生产和消费)，但主要聚焦在一个数据集内或多个数据集之间的数据生产的速率可变上”。

准确性，或真实性或叫做精度是数据的另一个重要组成方面。要做出正确的商业决策，当务之急是在数据上进行的所有分析必须是正确和准确（精确）的。

大数据系统可以提供巨大的商业价值。像电信，金融，电子商务，社交媒体等，已经认识到他们的数据是一个潜在的巨大的商机。他们可以预测用户行为，并推荐相关产品，提供危险交易预警服务，等等。

与其他IT系统一样，性能是大数据系统获得成功的关键。本文的中心主旨是要说明如何让大数据系统保证其性能。

2. 大数据系统应包含的功能模块

大数据系统应该包含的功能模块，首先是能够从多种数据源获取数据的功能，数据的预处理（例如，清洗，验证等），存储数据，数据处理、数据分析等（例如做预测分析??，生成在线使用建议等等），最后呈现和可视化的总结、汇总结果。

下图描述了大数据系统的这些高层次的组件

描述本节的其余部分简要说明了每个组分，如图1。

2.1 各种各样的数据源当今的IT生态系统，需要对各种不同种类来源的数据进行分析。这些来源可能是从在线Web应用程序，批量上传或feed，流媒体直播数据，来自工业、手持、家居传感的任何东西等等。

显然从不同数据源获取的数据具有不同的格式、使用不同的协议。例如，在线的Web应用程序可能会使用SOAP / XML格式通过HTTP发送数据，feed可能会来自于CSV文件，其他设备则可能使用MQTT通信协议。

由于这些单独的系统的性能是不在大数据系统的控制范围之内，并且通常这些系统都是外部应用程序，由第三方供应商或团队提供并维护，所以本文将不会在深入到这些系统的性能分析中去。

2.2 数据采集第一步，获取数据。这个过程包括分析，验证，清洗，转换，去重，然后存到适合你们公司的一个持久化设备中（硬盘、存储、云等）。

在下面的章节中，本文将重点介绍一些关于如何获取数据方面的非常重要的技巧。请注意，本文将不讨论各种数据采集技术的优缺点。

2.3 存储数据第二步，一旦数据进入大数据系统，清洗，并转化为所需格式时，这些过程都将在数据存储到一个合适的持久化层中进行。

在下面的章节中，本文将介绍一些存储方面的最佳实践（包括逻辑上和物理上）。在本文结尾也会讨论一部分涉及数据安全方面的问题。

2.4 数据处理和分析第三步，在这一阶段中的一部分干净数据是去规范化的，包括对一些相关的数据集的数据进行一些排序，在规定的时间间隔内进行数据结果归集，执行机器学习算法，预测分析等。

在下面的章节中，本文将针对大数据系统性能优化介绍一些进行数据处理和分析的最佳实践。

2.5 数据的可视化和数据展示最后一个步骤，展示经过各个不同分析算法处理过的数据结果。该步骤包括从预先计算汇总的结果（或其他类似数据集）中的读取和用一种友好界面或者表格（图表等等）的形式展示出来。这样便于对于数据分析结果的理解。

3. 数据采集中的性能技巧

数据采集是各种来自不同数据源的数据进入大数据系统的第一步。这个步骤的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。

数据采集??过程基于对该系统的个性化需求，但一些常用执行的步骤是 - 解析传入数据，做必要的验证，数据清晰，例如数据去重，转换格式，并将其存储到某种持久层。

涉及数据采集过程的逻辑步骤示如下图所示：

下面是一些性能方面的技巧：

来自不同数据源的传输应该是异步的。可以使用文件来传输、或者使用面向消息的（MoM）中间件来实现。由于数据异步传输，所以数据采集过程的吞吐量可以大大高于大数据系统的处理能力。异步数据传输同样可以在大数据系统和不同的数据源之间进行解耦。大数据基础架构设计使得其很容易进行动态伸缩，数据采集的峰值流量对于大数据系统来说算是安全的。

如果数据是直接从一些外部数据库中抽取的，确保拉取数据是使用批量的方式。

如果数据是从feed file解析，请务必使用合适的解析器。例如，如果从一个XML文件中读取也有不同的解析器像JDOM，SAX，DOM等。类似地，对于CSV，JSON和其它这样的格式，多个解析器和API是可供选择。选择能够符合需求的性能最好的。

优先使用内置的验证解决方案。大多数解析/验证工作流程的通常运行在服务器环境（ESB /应用服务器）中。大部分的场景基本上都有现成的标准校验工具。在大多数的情况下，这些标准的现成的工具一般来说要比你自己开发的工具性能要好很多。

类似地，如果数据XML格式的，优先使用XML（XSD）用于验证。

即使解析器或者校等流程使用自定义的脚本来完成，例如使用java优先还是应该使用内置的函数库或者开发框架。在大多数的情况下通常会比你开发任何自定义代码快得多。

尽量提前滤掉无效数据，以便后续的处理流程都不用在无效数据上浪费过多的计算能力。

大多数系统处理无效数据的做法通常是存放在一个专门的表中，请在系统建设之初考虑这部分的数据库存储和其他额外的存储开销。

如果来自数据源的数据需要清洗，例如去掉一些不需要的信息，尽量保持所有数据源的抽取程序版本一致，确保一次处理的是一个大批量的数据，而不是一条记录一条记录的来处理。一般来说数据清洗需要进行表关联。数据清洗中需要用到的静态数据关联一次，并且一次处理一个很大的批量就能够大幅提高数据处理效率。

数据去重非常重要这个过程决定了主键的是由哪些字段构成。通常主键都是时间戳或者id等可以追加的类型。一般情况下，每条记录都可能根据主键进行索引来更新，所以最好能够让主键简单一些，以保证在更新的时候检索的性能。

来自多个源接收的数据可以是不同的格式。有时，需要进行数据移植，使接收到的数据从多种格式转化成一种或一组标准格式。

和解析过程一样，我们建议使用内置的工具，相比于你自己从零开发的工具性能会提高很多。

数据移植的过程一般是数据处理过程中最复杂、最紧急、消耗资源最多的一步。因此，确保在这一过程中尽可能多的使用并行计算。

一旦所有的数据采集的上述活动完成后，转换后的数据通常存储在某些持久层，以便以后分析处理，综述，聚合等使用。

多种技术解决方案的存在是为了处理这种持久（RDBMS，NoSQL的分布式文件系统，如Hadoop和等）。

谨慎选择一个能够最大限度的满足需求的解决方案。

4. 数据存储中的性能技巧

一旦所有的数据采集步骤完成后，数据将进入持久层。

在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构（数据模型）。这些技巧适用于所有的数据处理过程，无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。

首先选择数据范式。您对数据的建模方式对性能有直接的影响，例如像数据冗余，磁盘存储容量等方面。对于一些简单的文件导入数据库中的场景，你也许需要保持数据原始的格式，对于另外一些场景，如执行一些分析计算聚集等，你可能不需要将数据范式化。

大多数的大数据系统使用NoSQL数据库替代RDBMS处理数据。

不同的NoSQL数据库适用不同的场景，一部分在select时性能更好，有些是在插入或者更新性能更好。

数据库分为行存储和列存储。

具体的数据库选型依赖于你的具体需求（例如，你的应用程序的数据库读写比）。

同样每个数据库都会根据不同的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性?这些设置会直接影响数据库性能。在数据库技术选型前一定要注意。

压缩率、缓冲池、超时的大小，和缓存的对于不同的NoSQL数据库来说配置都是不同的，同时对数据库性能的影响也是不一样的。

数据Sharding和分区是这些数据库的另一个非常重要的功能。数据Sharding的方式能够对系统的性能产生巨大的影响，所以在数据Sharding和分区时请谨慎选择。

并非所有的NoSQL数据库都内置了支持连接，排序，汇总，过滤器，索引等。

如果有需要还是建议使用内置的类似功能，因为自己开发的还是不灵。

NoSQLs内置了压缩、编解码器和数据移植工具。如果这些可以满足您的部分需求，那么优先选择使用这些内置的功能。这些工具可以执行各种各样的任务，如格式转换、压缩数据等，使用内置的工具不仅能够带来更好的性能还可以降低网络的使用率。

许多NoSQL数据库支持多种类型的文件系统。其中包括本地文件系统，分布式文件系统，甚至基于云的存储解决方案。

如果在交互式需求上有严格的要求，否则还是尽量尝试使用NoSQL本地（内置）文件系统（例如HBase 使用HDFS）。

这是因为，如果使用一些外部文件系统/格式，则需要对数据进行相应的编解码/数据移植。它将在整个读/写过程中增加原本不必要的冗余处理。

大数据系统的数据模型一般来说需要根据需求用例来综合设计。与此形成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型，用外键和表之间的关系用来描述数据实体与现实世界之间的交互。

在硬件一级，本地RAID模式也许不太适用。请考虑使用SAN存储。

5. 数据处理分析中的性能技巧

数据处理和分析是一个大数据系统的核心。像聚合，预测，聚集，和其它这样的逻辑操作都需要在这一步完成。

本节讨论一些数据处理性能方面的技巧。需要注意的是大数据系统架构有两个组成部分，实时数据流处理和批量数据处理。本节涵盖数据处理的各个方面。

在细节评估和数据格式和模型后选择适当的数据处理框架。

其中一些框架适用于批量数据处理，而另外一些适用于实时数据处理。

同样一些框架使用内存模式，另外一些是基于磁盘io处理模式。

有些框架擅长高度并行计算，这样能够大大提高数据效率。

基于内存的框架性能明显优于基于磁盘io的框架，但是同时成本也可想而知。

概括地说，当务之急是选择一个能够满足需求的框架。否则就有可能既无法满足功能需求也无法满足非功能需求，当然也包括性能需求。

一些这些框架将数据划分成较小的块。这些小数据块由各个作业独立处理。协调器管理所有这些独立的子作业?在数据分块是需要当心。

该数据快越小，就会产生越多的作业，这样就会增加系统初始化作业和清理作业的负担。

如果数据快太大，数据传输可能需要很长时间才能完成。这也可能导致资源利用不均衡，长时间在一台服务器上运行一个大作业，而其他服务器就会等待。

不要忘了查看一个任务的作业总数。在必要时调整这个参数。

最好实时监控数据块的传输。在本机机型io的效率会更高，这么做也会带来一个副作用就是需要将数据块的冗余参数提高（一般hadoop默认是3份）这样又会反作用使得系统性能下降。

此外，实时数据流需要与批量数据处理的结果进行合并。设计系统时尽量减少对其他作业的影响。

大多数情况下同一数据集需要经过多次计算。这种情况可能是由于数据抓取等初始步骤就有报错，或者某些业务流程发生变化，值得一提的是旧数据也是如此。设计系统时需要注意这个地方的容错。

这意味着你可能需要存储原始数据的时间较长，因此需要更多的存储。

数据结果输出后应该保存成用户期望看到的格式。例如，如果最终的结果是用户要求按照每周的时间序列汇总输出，那么你就要将结果以周为单位进行汇总保存。

为了达到这个目标，大数据系统的数据库建模就要在满足用例的前提下进行。例如，大数据系统经常会输出一些结构化的数据表，这样在展示输出上就有很大的优势。

更常见的是，这可能会这将会让用户感觉到性能问题。例如用户只需要上周的数据汇总结果，如果在数据规模较大的时候按照每周来汇总数据，这样就会大大降低数据处理能力。

一些框架提供了大数据查询懒评价功能。在数据没有在其他地方被使用时效果不错。

实时监控系统的性能，这样能够帮助你预估作业的完成时间。

6. 数据可视化和展示中的性能技巧

精心设计的高性能大数据系统通过对数据的深入分析，能够提供有价值战略指导。这就是可视化的用武之地。良好的可视化帮助用户获取数据的多维度透视视图。

需要注意的是传统的BI和报告工具，或用于构建自定义报表系统无法大规模扩展满足大数据系统的可视化需求。同时，许多COTS可视化工具现已上市。

本文将不会对这些个别工具如何进行调节，而是聚焦在一些通用的技术，帮助您能打造可视化层。

确保可视化层显示的数据都是从最后的汇总输出表中取得的数据。这些总结表可以根据时间短进行汇总，建议使用分类或者用例进行汇总。这么做可以避免直接从可视化层读取整个原始数据。

这不仅最大限度地减少数据传输，而且当用户在线查看在报告时还有助于避免性能卡顿问题。

重分利用大化可视化工具的缓存。缓存可以对可视化层的整体性能产生非常不错的影响。

物化视图是可以提高性能的另一个重要的技术。

大部分可视化工具允许通过增加线程数来提高请求响应的速度。如果资源足够、访问量较大那么这是提高系统性能的好办法。

尽量提前将数据进行预处理，如果一些数据必须在运行时计算请将运行时计算简化到最小。

可视化工具可以按照各种各样的展示方法对应不同的读取策略。其中一些是离线模式、提取模式或者在线连接模式。每种服务模式都是针对不同场景设计的。

同样，一些工具可以进行增量数据同步。这最大限度地减少了数据传输，并将整个可视化过程固化下来。

保持像图形，图表等使用最小的尺寸。

大多数可视化框架和工具的使用可缩放矢量图形（SVG）。使用SVG复杂的布局可能会产生严重的性能影响。

7. 数据安全以及对于性能的影响

像任何IT系统一样安全性要求也对大数据系统的性能有很大的影响。在本节中，我们讨论一下安全对大数据平台性能的影响。

- 首先确保所有的数据源都是经过认证的。即使所有的数据源都是安全的，并且没有针对安全方面的需求，那么你可以灵活设计一个安全模块来配置实现。

- 数据进过一次认证，那么就不要进行二次认证。如果实在需要进行二次认证，那么使用一些类似于token的技术保存下来以便后续继续使用。这将节省数据一遍遍认证的开销。

- 您可能需要支持其他的认证方式，例如基于PKI解决方案或Kerberos。每一个都有不同的性能指标，在最终方案确定前需要将其考虑进去。

- 通常情况下数据压缩后进入大数据处理系统。这么做好处非常明显不细说。

- 针对不同算法的效率、对cpu的使用量你需要进行比较来选出一个传输量、cpu使用量等方面均衡的压缩算法。

- 同样，评估加密逻辑和算法，然后再选择。

- 明智的做法是敏感信息始终进行限制。

- 在审计跟踪表或登录时您可能需要维护记录或类似的访问，更新等不同的活动记录。这可能需要根据不同的监管策略和用户需求个性化的进行设计和修改。

- 注意，这种需求不仅增加了数据处理的复杂度，但会增加存储成本。

- 尽量使用下层提供的安全技术，例如操作系统、数据库等。这些安全解决方案会比你自己设计开发性能要好很多。

8. 总结

本文介绍了各种性能方面的技巧，这些技术性的知道可以作为打造大数据分析平台的一般准则。大数据分析平台非常复杂，为了满足这种类型系统的性能需求，需要我们从开始建设的时候进行考量。

本文介绍的技术准则可以用在大数据平台建设的各个不同阶段，包括安全如何影响大数据分析平台的性能。

J. 如何创建一个大数据平台

首先要明来白大数据平台的基自础，大数据的基础就是数据，数据是要经过采集才能形成。

建立大数据平台，关键是使用比较好的信息采集技术。

这些技术，具有以下的特点：

信息采集系统的主要功能为：根据用户自定义的任务配置，批量而精确地抽取因特网目标网页中的半结构化与非结构化数据，转化为结构化的记录，保存在本地数据库中，用于内部使用或外网发布，快速实现外部信息的获取。如下图所示：

淫才，这样的信息采集技术，用途是非常广泛的。

导航:首页 > 网络数据 > 整合建立大数据平台

整合建立大数据平台

与整合建立大数据平台相关的资料

友情链接