如何建立本地大数据_如何搭建大数据分析平台

『壹』如何正确建立大数据结构

如何正确建立大数据结构
大数据各行各业的企业都提供了潜力。正确使用这些大数据信息可能将增加商业价值，帮助您的企业从市场竞争中脱颖而出。如下是几个企业成功应用大数据的案例：
大数据的例子
汽车制造商已经开始使用大数据来了解汽车何时需要返回到车库进行维修。使用汽车发动机的数百个传感器，可以为汽车制造商发送实时的数据信息，这使得制造商甚至比驾驶汽车的司机还要提前知道汽车何时会出现故障。卡车制造商开始使用大数据，基于实时交通条件和客户的需求来改进他们的路由，从而节约燃料和时间。
零售业也开始越来越多的使用大数据，鉴于越来越多的产品均有一个RFID标签能帮助零售商跟踪产品，知道很少某种产品库存缺货，并及时向供货商订购新产品。沃尔玛便是这正确利用大数据这方面的一个很好的例子。当零售商开始识别他们的客户时，就能够更好地建立商店，更好的满足客户的需求。
当然，上述这些只是几个浅显的例子，大数据的可能性几乎是无止境的。不久的将来，我们将讨论在大数据平台上的最佳实践。知道大数据能够提供商业价值是一回事；而企业要知道如何创建正确的架构则又是另一回事了。
大数据结构
大数据有三个特征，使得大数据不同于现有的数据仓库和商业智能。大数据的这三大特点是：
数据量庞大：大数据的数据量相当庞大，更多的时候大数据的数据量可以达到比数TB到PB级字节。
高速度传递：所有这些TB和PB字节的数据能够实时交付，数据仓库每天都需要应付如此高速的数据流。
种类繁杂：大数据比使用现有的商业智能中正常数据的种类更繁杂。大数据还包括非结构化社交数据，如Twitter或Facebook网的社会信息、日志文件、电子邮件等。
根据这些特性，建立您企业的体系结构是非常重要的。一个很好的出发点是以企业现有的数据仓库为基础。高密度数据的数据仓库，其中包含用于当前商业智能的仪表板。重要的是，该企业是为了之后再移动到大数据。把大数据转移到您的企业有如下四个步骤：
1）进一步分析当前的数据：从仪表板和ad-hoc查询，到诸如空间分析和图形分析或更高级先进的分析。您可以专注于客户忠诚度、客户流失率、分析本地情况（如何接近您的客户），并开始建立社交网络（与您的客户建立社交联系）。这些分析将为您的企业带来更多的商业价值。
2）建立正确的架构，用于存储数据的种类和数量：这一切大数据是如何存储在您的企业的。把这些原始数据直接转化到数据仓库中，每兆字节以低成本优化存储大量低密度数据是十分重要的。这便是Hadoop本身已被证明是非常有效的。Hadoop是开源的，与现有的数据库兼容。它集合了所有可用的数据，您可以用它来寻找新的关系和新的潜在的商业价值。
3）为数据传输速度建立体系结构：一旦您有合适的设备来存储大量的不同的数据，您就可以开始实时处理数据。例如如果您有数据流从传感器传输而来，存储在Hadoop，您想看看正在发生的事件，并需要确定是否需要采取行动。您可以使用一切历史数据，以确定在实时条件下进行预期（预测分析），您可以创建模型反应发生模式。如果您已经建立了一个智能的基础设施，您将能够实时响应事件，并进行实时的决策。
4）开始探索新的模式：利用所有可用的数据，您可以在您的数据中发现新的模式。从Hadoop与其他可用的数据汇总数据相匹配。有不同的大数据初创公司开发的工具，在这个平台上分析，可以帮助您可视化，寻求新的关系。我们的目标是找到您要解决的下一个问题，最大限度地帮助您从数据中获取商业价值。
正确发展大数据结构可谓是一个挑战，同时可能成本是相当昂贵的。然而，结果必将物超所值的让您成功收回投资。

『贰』大数据怎么实现的

搭建大数据分析平台的工作是循序渐进的，不同公司要根据自身所处阶段选择合适的平台形态，没有必要过分追求平台的分析深度和服务属性，关键是能解决当下的问题。大数据分析平台是对大数据时代的数据分析产品（或称作模块）的泛称，诸如业务报表、OLAP应用、BI工具等都属于大数据分析平台的范畴。与用户行为分析平台相比，其分析维度更集中在核心业务数据，特别是对于一些非纯线上业务的领域，例如线上电商、线下零售、物流、金融等行业。而用户行为分析平台会更集中分析与用户及用户行为相关的数据。企业目前实现大数据分析平台的方法主要有三种：（1）采购第三方相关数据产品例如Tableau、Growing IO、神策、中琛魔方等。此类产品能帮助企业迅速搭建数据分析环境，不少第三方厂商还会提供专业的技术支持团队。但选择此方法，在统计数据的广度、深度和准确性上可能都有所局限。例如某些主打无埋点技术的产品，只能统计到页面上的一些通用数据。随着企业数据化运营程度的加深，这类产品可能会力不从心。该方案适合缺少研发资源、数据运营初中期的企业。一般一些创业公司、小微企业可能会选择此方案。（2）利用开源产品搭建大数据分析平台对于有一定开发能力的团队，可以采用该方式快速且低成本地搭建起可用的大数据分析平台。该方案的关键是对开源产品的选择，选择正确的框架，在后续的扩展过程中会逐步体现出优势。而如果需要根据业务做一些自定义的开发，最后还是绕不过对源码的修改。（3）完全自建大数据分析平台对于中大型公司，在具备足够研发实力的情况下，通常还是会自己开发相关的数据产品。自建平台的优势是不言而喻的，企业可以完全根据自身业务需要定制开发，能够对业务需求进行最大化的满足。对于平台型业务，开发此类产品也可以进行对外的商业化，为平台上的B端客户服务。例如淘宝官方推出的生意参谋就是这样一款成熟的商用数据分析产品，且与淘宝业务和平台优势有非常强的结合。在搭建大数据分析平台之前，要先明确业务需求场景以及用户的需求，通过大数据分析平台，想要得到哪些有价值的信息，需要接入的数据有哪些，明确基于场景业务需求的大数据平台要具备的基本的功能，来决定平台搭建过程中使用的大数据处理工具和框架。

『叁』如何建设一个落地的农业大数据体系

从最初的出发点，农业大数据是可以利用卫星遥感、气象和土地等数据集成天气、病虫害、成长监测等到种植管理计划中，并能够进行作物产量和生长趋势预测；
从标准化农场的规模化和自动化产业运营的角度，农业大数据是可以结合自动化农机、IoT的智慧农业等进行辅助决策分析；
通过大数据分析和预测，可以进行农产业的产品创新和垂直市场的深入开发；
通过大数据来支撑农产品的品质控制和种植生产等数据与农产品零售和食品零售的数据交换和追溯；
基于大数据来进行农业的一二三产的价值链整合，谁先掌握更多的大数据谁更容易建立产业链的首发优势；
通过丰富和全面的大数据来支撑农产品品牌的打造和IP化；
但是，如果只是为了农业的大数据而大数据是没有用的，一定要结合农业的实际应用场景来采集、利用和算法分析，也就是要让“量”大的大数据变成“厚实”应用场景的大数据。
现在的农业大数据大多是从数据源入手，比如天上的卫星遥感、地下的土地设备等，但缺少实际的农业应用场景，导致数据很难直接进行价值转化落地，农业的大数据不只是天上的、地下的能够解决，更关键是地面部队，地面推进。农机，也没有实现标准化和规模化的农场或者基地，而农场和农产品的交易平台也没有完全实现，这就意味着农业大数据的道路还很漫长。

『肆』如何构建大数据体系

一.数据搭建

建立自己的数据收集规范，形成一定的数据采集、筛选、分析等相应的制度

二.数据报表可视化

对数据进行标准化的配置，形成可视化的报表系统

三.产品与运营分析

对平台的各个角色建立全方位的用户画像，对行为进行数据跟踪，对数据挖掘分析，建立漏斗模型，流动模型，用户细分等模型。

四.精细化产品运营

对产品制定自动获取数据制度，用数据跟踪产品的生命周期，对数据进行细分，做到针对性运营

五.数据产品

借助第三方数据获取的渠道，形成数据化产品，提供数据化的依据

『伍』如何创建一个大数据平台

首先要明来白大数据平台的基自础，大数据的基础就是数据，数据是要经过采集才能形成。

建立大数据平台，关键是使用比较好的信息采集技术。

这些技术，具有以下的特点：

信息采集系统的主要功能为：根据用户自定义的任务配置，批量而精确地抽取因特网目标网页中的半结构化与非结构化数据，转化为结构化的记录，保存在本地数据库中，用于内部使用或外网发布，快速实现外部信息的获取。如下图所示：

淫才，这样的信息采集技术，用途是非常广泛的。

『陆』如何搭建大数据分析平台

1、搭建大数据分析平台的背景
在大数据之前，BI就已经存在很久了，简单把大数据等同于BI，明显是不恰当的。但两者又是紧密关联的，相辅相成的。BI是达成业务管理的应用工具，没有BI，大数据就没有了价值转化的工具，就无法把数据的价值呈现给用户，也就无法有效地支撑企业经营管理决策；大数据则是基础，没有大数据，BI就失去了存在的基础，没有办法快速、实时、高效地处理数据，支撑应用。所以，数据的价值发挥，大数据平台的建设，必然是囊括了大数据处理与BI应用分析建设的。
2、大数据分析平台的特点
数据摄取、数据管理、ETL和数据仓库：提供有效的数据入库与管理数据用于管理作为一种宝贵的资源。
Hadoop系统功能：提供海量存储的任何类型的数据，大量处理功率和处理能力几乎是无限并行工作或任务
流计算在拉动特征：用于流的数据、处理数据并将这些流作为单个流。
内容管理特征：综合生命周期管理和文档内容。
数据治理综合：安全、治理和合规解决方案来保护数据。
3、怎样去搭建大数据分析平台
大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具，实现对数据的挖掘和分析，一个大数据分析平台涉及到的组件众多，如何将其有机地结合起来，完成海量数据的挖掘是一项复杂的工作。我们可以利用亿信一站式数据分析平台（ABI），可以快速构建大数据分析平台，该平台集合了从数据源接入到ETL和数据仓库进行数据整合，再到数据分析，全部在一个平台上完成。
亿信一站式数据分析平台（ABI）囊括了企业全部所需的大数据分析工具。ABI可以对各类业务进行前瞻性预测分析，并为企业各层次用户提供统一的决策分析支持，提升数据共享与流转能力。

『柒』大数据平台是什么什么时候需要大数据平台如何建立大数据平台

首先我们要了解java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

『捌』如何创建一个大数据平台

所谓的大数据平台不是独立存在的，比如网络是依赖搜索引擎获得大数据并开展业务的，阿里是通过电子商务交易获得大数据并开展业务的，腾讯是通过社交获得大数据并开始业务的，所以说大数据平台不是独立存在的，重点是如何搜集和沉淀数据，如何分析数据并挖掘数据的价值。

我可能还不够资格回答这个问题，没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧，也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享，印象很深的是，他们分享说，他们的hadoop集群第一次故障是因为，机器放在靠窗的地方，太阳晒了当机了（笑）。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台，这是一个不断演进的过程。
对小公司来说，大概自己找一两台机器架个集群算算，也算是大数据平台了。在初创阶段，数据量会很小，不需要多大的规模。这时候组件选择也很随意，Hadoop一套，任务调度用脚本或者轻量的框架比如luigi之类的，数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理，用脚本或者轻量的监控，大约是没有ganglia、nagios，puppet什么的。这个阶段也许算是技术积累，用传统手段还是真大数据平台都是两可的事情，但是为了今后的扩展性，这时候上Hadoop也许是不错的选择。
当进入高速发展期，也许扩容会跟不上计划，不少公司可能会迁移平台到云上，比如AWS阿里云什么的。小规模高速发展的平台，这种方式应该是经济实惠的，省了运维和管理的成本，扩容比较省心。要解决的是选择平台本身提供的服务，计算成本，打通数据出入的通道。整个数据平台本身如果走这条路，可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段，你发现云服务的费用太高，虽然省了你很多事，但是花钱嗖嗖的。几个老板一合计，再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维，帮你监管机器，之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了，你面对的是成百上千台主机，有些关键服务必须保证稳定，有些是数据节点，磁盘三天两头损耗，网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局，设计运维规范，架设监控，值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型，如果有技术实力，可以直接用社区的一整套，自己管起来，监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了，配置管理，部署管理都需要专门的平台和组件；定期Review用户的作业和使用情况，决定是否扩容，清理数据等等。否则等机器和业务进一步增加，团队可能会死的很惨，疲于奔命，每天事故不断，进入恶性循环。
当然有金钱实力的大户可以找Cloudera，Hortonworks，国内可以找华为星环，会省不少事，适合非互联网土豪。当然互联网公司也有用这些东西的，比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入，之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS，现在可能不行了，这些大概没有高性能，没有异常保障，你需要更强壮的解决方案，比如Flume之类的。
你的业务不断壮大，老板需要看的报表越来越多，需要训练的数据也需要清洗，你就需要任务调度，比如oozie或者azkaban之类的，这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了，因为传统数据库已经完全hold不住了，但他们不会写代码，所以你上马了Hive。然后很多用户用了Hive觉得太慢，你就又上马交互分析系统，比如Presto，Impala或者SparkSQL。
你的数据科学家需要写ML代码，他们跟你说你需要Mahout或者Spark MLLib，于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了，大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂，不管是你还是写数据的人大概都不知道数据从哪儿来，接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能，发现你们的数据都是上百Column，各种复杂的Query，裸存的Text格式即便压缩了也还是慢的要死，于是你主推用户都使用列存，Parquet，ORC之类的。
又或者你发现你们的ETL很长，中间生成好多临时数据，于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户，把这些零散的组件都整合到一起，提供统一的用户体验，比如一键就能把数据从数据库chua一下拉到HDFS导入Hive，也能一键就chua一下再搞回去；点几下就能设定一个定时任务，每天跑了给老板自动推送报表；或者点一下就能起一个Storm的topology；或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然，磕磕碰碰免不了。每天你都有新的问题和挑战，否则你就要失业了不是？
你发现社区不断在解决你遇到过的问题，于是你们架构师每天分出很多时间去看社区的进展，有了什么新工具，有什么公司发布了什么项目解决了什么问题，兴许你就能用上。
上了这些乱七八糟的东西，你以为就安生了？Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人，老板如果知道这是天然坑多的平台，那他也许会很高兴，因为跟进社区，帮忙修bug，一起互动其实是很提升公司影响力的实情。当然如果老板不理解，你就自求多福吧，招几个老司机，出了问题能马上带路才是正道。当然团队的技术积累不能不跟上，因为数据平台还是乱世，三天不跟进你就不知道世界是什么样了。任何一个新技术，都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术，那需要小心再小心，技术主管也要有足够的积累，能够驾驭，知道收益和风险。

『玖』搭建大数据平台的具体步骤是什么

1、操作体系的挑选

操作体系一般使用开源版的RedHat、Centos或许Debian作为底层的构建渠道，要根据大数据渠道所要建立的数据剖析东西能够支撑的体系，正确的挑选操作体系的版本。

2、建立Hadoop集群

Hadoop作为一个开发和运行处理大规模数据的软件渠道，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop结构中最核心的规划是HDFS和MapRece，HDFS是一个高度容错性的体系，合适布置在廉价的机器上，能够供给高吞吐量的数据访问，适用于那些有着超大数据集的应用程序;MapRece是一套能够从海量的数据中提取数据最终回来成果集的编程模型。在生产实践应用中，Hadoop非常合适应用于大数据存储和大数据的剖析应用，合适服务于几千台到几万台大的服务器的集群运行，支撑PB级别的存储容量。

3、挑选数据接入和预处理东西

面临各种来源的数据，数据接入便是将这些零散的数据整合在一起，归纳起来进行剖析。数据接入首要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的东西有Flume，Logstash，NDC(网易数据运河体系)，sqoop等。

4、数据存储

除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value体系，布置在HDFS上，与Hadoop一样，HBase的目标首要是依靠横向扩展，通过不断的添加廉价的商用服务器，添加计算和存储才能。同时hadoop的资源管理器Yarn，能够为上层应用供给统一的资源管理和调度，为集群在利用率、资源统一等方面带来巨大的优点。

5、挑选数据挖掘东西

Hive能够将结构化的数据映射为一张数据库表，并供给HQL的查询功能，它是建立在Hadoop之上的数据仓库根底架构，是为了削减MapRece编写工作的批处理体系，它的出现能够让那些通晓SQL技术、可是不熟悉MapRece、编程才能较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL言语查询、汇总、剖析数据。

6、数据的可视化以及输出API

关于处理得到的数据能够对接主流的BI体系，比如国外的Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数(可免费试用)等，将成果进行可视化，用于决策剖析;或许回流到线上，支撑线上业务的开展。

导航:首页 > 网络数据 > 如何建立本地大数据

如何建立本地大数据

与如何建立本地大数据相关的资料

友情链接