A. 求大数据分析技术
列一大堆没用的。。。
大数据分析技术两种理解: 一种是 大数据处理涉及到技术, 一种专是 数据挖掘技术
第一种就属是数据处理流程: 也就是 数据采集 数据清洗 数据存储 数据挖掘 结果可视化展示 技术。
第二种就是具体的数据挖掘算法: 主要是 回归 分类 关联规则 聚类 异常检测 这几种
看你需要哪种?
B. 大数据分析平台哪个好
"大数据分析平台哪个好"?很多小伙伴想要在第一时间找到自己需要的软件,答知蠢那么今天小编就为各位带来了"大数据分析平台哪个好",希望能够帮助大家,一起来看看吧!
1. 高速交通大数据分析平台 软件类型:电脑软件
软件介绍:
【基本介绍】CDA大数据分析圈描述AI与大数据领航者,前沿资源与技术干货应有尽有。标题:CDA大数据分析圈-大数据、数据分析、人工智能、区块链教育。
3. CDA大数据分析圈 软件类型:安卓APP
软件介绍:
CDA大数据分析圈是由经管之家“CDA数据分析师”团队所研发的面向大数据领域的分享学习型平台,涵盖行业资讯、技术干货、大数据应用及CDA原创等各类文章,用户也可以在猛册平台上找到大数据领域的活动、会议、优
4. 农业大数据平台 软件类型:安卓APP
软件介绍:
农业大数据平台app下载,一款专为靖边县小伙伴们打造出的农业互联网大数据信息综合服务平台,来农业大数据平台app客户可清陪以网上咨询专家,更有大量农业新闻资讯,供需信息等,热烈欢迎下载。
5. 星立方大数据平台 软件类型:安卓APP
软件介绍:
星立方app是一款互联网大数据分数查询剖析手机客户端运用,星立方数据管理平台手机软件中登陆就可以快速搜索考试成绩,而且星立方app便捷教师网上阅卷点评这些,星立方合理提升教师教
C. 大数据分析技术生态圈一览
大数据分析技术生态圈一览
大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。
这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。
Platfora
这是一款大数据发现和分析平台。
Qlikview
这是一款引导分析平台。
Sisense
这是一款商业智能软件,专门处理复杂数据的商业智能解决方案。
Sqream
这是一款快速、可扩展的大数据分析SQL数据库。
Splunk
这是一款运维智能平台。
Sumologic
这是一项安全的、专门定制的、基于云的机器数据分析服务。
Actian
这是一款大数据分析平台。
亚马逊Redshift
这是一项PB级云端数据仓库服务。
CitusData
可扩展PostgreSQL。
Exasol
这是一种用于分析数据的大规模并行处理(MPP)内存数据库。
惠普Vertica
这是一款SQL on Hadoop大数据分析平台。
Mammothdb
这是一款与SQL兼容的MPP分析数据库。
微软SQL Server
这是一款关系数据库管理系统。
甲骨文Exadata
这是一款计算和存储综合系统,针对甲骨文数据库软件进行了优化。
SAP HANA
这是一款内存计算平台。
Snowflake
这是一款云数据仓库。
Teradata
这是企业级大数据分析和服务。
数据探查
Apache Drill
这是一款无数据库模式的SQL查询引擎,面向Hadoop、NoSQL和云存储。
Cloudera Impala
这是一款开源大规模并行处理SQL查询引擎。
谷歌BigQuery
这是一项全面托管的NoOps数据分析服务。
Presto
这是一款面向大数据的分布式SQL查询引擎。
Spark
这是一款用于处理大数据的快速通用引擎。
平台/基础设施
亚马逊网络服务(AWS)
提供云计算服务
思科云
提供基础设施即服务
Heroku
为云端应用程序提供平台即服务
Infochimps
提供云服务的大数据解决方案
微软Azure
这是一款企业级云计算平台。
Rackspace
托管专业服务和云计算服务
Softlayer(IBM)
提供云基础设施即服务
数据基础设施
Cask
这是一款面向Hadoop解决方案的开源应用程序平台。
Cloudera
提供基于Hadoop的软件、支持和服务。
Hortonworks
管理HDP――这是一款开源企业Apache Hadoop数据平台。
MAPR
这是面向大数据部署环境的Apache Hadoop技术。
垂直领域应用/数据挖掘
Alpine Data Labs
这是一种高级分析平台,可处理Apache Hadoop和大数据。
R
这是一种免费软件环境,可处理统计计算和图形。
Rapidminer
这是一款开源预测分析平台
SAS
这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。
提取、转换和加载(ETL)
IBM Datastage
使用一种高性能并行框架,整合多个系统上的数据。
Informatica
这是一款企业数据整合和管理软件。
Kettle-Pentaho Data Integration
提供了强大的提取、转换和加载(ETL)功能。
微软SSIS
这是一款用于构建企业级数据整合和数据转换解决方案的平台。
甲骨文Data Integrator
这是一款全面的数据整合平台。
SAP
NetWeaver为整合来自各个数据源的数据提供了灵活方式。
Talend
提供了开源整合软件产品
Cassandra
这是键值数据库和列式数据库的混合解决方案。
CouchBase
这是一款开源分布式NoSQL文档型数据库。
Databricks
这是使用Spark的基于云的大数据处理解决方案。
Datastax
为企业版的Cassandra数据库提供商业支持。
IBM DB2
这是一款可扩展的企业数据库服务器软件。
MemSQL
这是一款分布式内存数据库。
MongoDB
这是一款跨平台的文档型数据库。
MySQL
这是一款流行的开源数据库。
甲骨文
这是一款企业数据库软件套件。
PostgresSQL
这是一款对象关系数据库管理系统。
Riak
这是一款分布式NoSQL数据库。
Splice Machine
这是一款Hadoop关系数据库管理系统。
VoltDB
这是一款内存NewSQL数据库。
Actuate
这是一款嵌入式分析和报表解决方案。
BiBoard
这是一款交互式商业智能仪表板和可视化工具。
Chart.IO
这是面向数据库的企业级分析工具。
IBM Cognos
这是一款商业智能和绩效管理软件。
D3.JS
这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。
Highcharts
这是面向互联网的交互式JavaScirpt图表。
Logi Analytics
这是自助服务式、基于Web的商业智能和分析应用软件。
微软Power BI
这是交互式数据探查、可视化和演示工具。
Microstrategy
这是一款企业商业智能和分析软件。
甲骨文Hyperion
这是企业绩效管理和商业智能系统。
Pentaho
这是大数据整合和分析解决方案。
SAP Business Objects
这是商业智能解决方案。
Tableau
这是专注于商业智能的交互式数据可视化产品系列。
Tibco Jaspersoft
这是商业智能套件。
D. 大数据时代,大数据概念,大数据分析是什么意思
大数据概念就是指大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据时代是IT行业术语。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
大数据分析是指对规模巨大的数据进行分析。大数据可以概括为4个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)。
(4)大数据分析圈扩展阅读:
大数据分析的实例应用:
数据分析成为巴西世界杯赛事外的精彩看点。伴随赛场上球员的奋力角逐,大数据也在全力演绎世界杯背后的分析故事。
一向以严谨著称的德国队引入专门处理大数据的足球解决方案,进行比赛数据分析,优化球队配置,并通过分析对手数据找到比赛的“制敌”方式;谷歌、微软、Opta等通过大数据分析预测赛果...... 大数据,不仅成为赛场上的“第12人”,也在某种程度上充当了世界杯的"预言帝"。
大数据分析邂逅世界杯,是大数据时代的必然发生,而大数据分析也将在未来改变我们生活的方方面面。
E. 大数据分析的未来图景 万物皆可分析
大数据分析的未来图景:万物皆可分析
在云计算、大数据之后物联网成为新晋热点话题,物联网改变了我们看待世界的方法,改变了我们做业务的方法,甚至改变我们的生活方式。但是即使是最精通技术的企业也承认,从物联网生成的数据中获取价值非常困难,需要大量技巧。
Teradata认为的数据分析未来图景是“万物皆可分析”,所以在本次大会上也发布了Teradata Listener,其是一款具有实时“听取”功能的自助式智能软件,对客户而言可跟踪他们世界各地存放的多条传感器和物联网数据流,并将该数据传送到分析生态系统中的多个平台,使得我们能够在数据源的发生地就可以进行分析。
Teradata天睿公司大中华区首席执行官辛儿伦
同时Teradata也强调,在建设数据分析系统中,要避免数据孤岛。由于单一技术无法解决全面数据分析的需求,必须简化各种技术难度,创建统一生态数据管理系统。简化是非常重要的需求,任何数据分析系统都要使得架构简化。所以,在本次大会上,Teradata还更新了其统一数据架构(UDA),推出了在单一机箱内整合Teradata数据仓库、Teradata Aster Analytics和Hadoop系统,使用户能够在更小的数据中心空间内发挥整个分析生态系统管理的优势。
在本次大会上,ZDNet采访了Teradata天睿公司大中华区首席执行官辛儿伦,以下为访谈实录:
ZDNet:2015年的大会以Breaking Big为主题,请问其寓意是什么?这是否代表Teradata对于大数据认知在概念上的颠覆?
辛儿伦:Breaking Big这个主题,我理解最核心的应该是“打破束缚和限制”,不管是企业还是个人应该探索和追求“创新、差异化、勇气、重大进展和卓越表现。”
第一,在大数据时代,企业必须坚持创新和追求创新,不管技术上寻找突破,还是从业务流程、商业模式、组织架构、企业的分析文化上,都可进行积极的创新。例如,去年我们刚刚收购的Think Big公司,帮助我们增强对Hadoop的咨询、顾问和实施能力, 以及与其它分析平台的交互能力。在本次大会上,我们刚宣布Think Big成为业内首个能够为Hadoop数据湖(数据资源池)提供全面的管理服务,这将帮助企业非常便利地创建数据分析的生态系统,确保数据质量、可靠性、实时性以及日常的运营任务。
我强调一下,我们的Think Big公司支持主要的Apache? Hadoop?,包括Cloudera、Hortonworks、MapR、Spark、Kafka、NoSQL以及其他开源技术,非常全面。而且更重要的是,我这里也是首次宣布,我们的Think Big业务已经确定引入到大中华区,目前已经在完成人员的配备。
第二,我觉得企业中在数据分析上的务实和积极进取的文化非常重要。其中,这个主题中提到“勇气”是企业实现大数据项目成功的重要保证。很多的企业,曾经面对大数据项目的投资犹豫、徘徊,其实这就需要更大的勇气支持。Teradata以及广大客户的反馈已经看到,我们是时候积极行动了。我们也理解,文化上的转变可能比技术和分析流程上的转变历时更久,但是我们一直强调,大数据从小做起,相信你也能很快看到大数据的价值,看到大数据分析在商业变革中带来的不可替代的驱动力。
ZDNet:每年的全球用户大会,Teradata都会发布业界注目的新产品。今年发布的产品中,您认为哪些是最具亮点的?
辛儿伦:今年,我们在大数据技术、开源技术的支持以及咨询服务上都有重要的更新和发布。这里,我特别强调一下,本次大会上最亮点的应该是针对物联网的传感器数据的分析能力,甚至实现了万物皆可分析(Analytics of Everything)。Teradata Listener技术能够通过整合开源技术,帮助客户分析物联网中不计其数的数据源,简化数据分析的难度。Teradata QueryGrid技术能在统一数据架构上快速有效地进行主题分析或查询多元化的大数据,以取得业务需要的信息。
同时,Teradata Aster新的版本能直接交互Hadoop数据资源池或数据仓库平台,帮助客户进行实时的数据探索,例如高效营销中进行客户路径和消费模式分析,等等.
ZDNet:最近,Gartner发布了2016年可能影响企业的十大技术趋势,其中万物信息化以及物联网等技术入选。在目前发展出现这些趋势之时,您怎们看技术的发展趋势?如果时间放长远一点,据您观察未来5年甚至10年,那些技术可能会成为影响企业比较显著的技术趋势?
辛儿伦:我们看到这些十大技术趋势,这些都是战略性大趋势,其中包括Information of Everything(万物信息化)以及物联网架构和平台。其实,我认为这不仅是趋势,而是新的IT现实。
关于万物信息化,可以理解为我们身处在一个数字网格之中,这个环境会产生、使用其产生的无计其数的信息。在这些数据和信息的海洋中,不管是企业还是个人,必须学会判断和识别哪些信息能够带来战略性的价值,掌握如何访问这些不同的数据源,并通过各种分析方法和算法找出其中的业务价值。
其实,这些预测也是真实IT现实的写照。实现万物皆联网或者信息化,最主要之一靠传感器技术。在我们目前生活的时代,传感器技术结合大规模并行处理能力,使我们能够测量并整体分析几乎所有现象。先进的仪器使我们能够跟踪万物的变化,例如天气变化模式、汽车驾驶习惯、乃至快餐店冰箱的温度、医院里(或家里)病人的生命体征。将这些数据采集至数据库,并运用广泛的统计、分析及可视化工具对这些数据进行细致的分析。
正是由于这些传感器,我们的生活、工作中产生了新的数据源。例如,通过射频识别读取器,我们能够进行零售库存跟踪与控制、医疗测试采样跟踪、预防欺诈行为等;通过GPS定位跟踪器,能够进行车队管理和交通运输和货运管理;通过数据采集传感器,我们就能在制造业、环境保护、交通运输系统中采集到实时的数据用于分析。
例如,西门子公司就通过部署Teradata技术提升其制造流程及产品质量。西门子首次实现了整合来自传感器、制造流程、机器生成数据,以及各种源系统的数据。西门子技术领域商业分析及监测总监Michael May博士对此说:“现在,我们可以更快、更有效地获得数据中的价值。把大数据转换为智能数据,我们将能够优化产品质量,为客户提供更加优质的服务。”
关于物联网我提两点:《2014-2015年中国物联网发展年度报告》中指出,物联网技术与云计算、大数据、移动互联网等新兴一代信息技术的协同创新进一步深化,与农业、制造业、服务业等传统产业,与新能源、新材料、先进制造业等新兴产业的“双向融合”不断加强。物联网加快向经济、社会、生活众多领域渗透,不断催生新变革、新应用和新业态。这些都是非常可喜的发展成绩。现在快速发展的物联网,以及未来的“万物皆联网”,任何人、事、物之间将能实现连接,这将带来沟通模式的变化、业务模式的变化,甚至发展模式的变化。
但是,我们更要强调,要想让物联网发挥出价值,企业必须对传感器数据进行整合和分析,并把分析结果利用到生产流程中来,而由大数据驱动的物联网才是有价值的物联。
由于物联网数据都是非结构化数据,这种JSON数据的分析都非常复杂。在今年5月,我们就宣布首次在同一数据库实现三大JSON数据格式的原生存储,这将为客户提供更强的查询性能。通过对Teradata数据库升级,能够帮助业务用户充分利用网页应用、传感器和物联网机器生成JSON数据的商业价值。而Teradata数据库具备分析JSON数据、操作数据和历史业务数据的强大功能,而这一顶级查询性能使其成为物联网分析枢纽。此外,本次大会上发布的Teradata Listener是一款自助式智能软件,具有实时“听取”功能,可协助客户跟踪他们世界各地存放的多条传感器和物联网数据流,并将该数据传送到分析生态系统中的多个平台,这些都是巨大的技术突破。
针对未来更长时间的趋势预测,如果从更加宏观的角度看,我们先梳理一下整个IT 行业的发展,然后就能看到未来的发展趋势。过去从70或者80年代开始,对整个IT产业的关注,不管是产业给予的专注,还是IT供应商的专注,或是企业对于成立自己的IT部门的专注,更多的是一种小I大T的专注,什么叫小I大T?小的专注于Information能够体现的价值,而大量专注于运用用和研发Technology方面的议题。这就是小I大T,更多地认为IT就只是Technology这个课题,但是我们要注意IT不仅仅是Technology,IT是两个课题,是Information和Technology。
随着技术的发展,现在的技术能够承载的Information的价值度是迅速提升的,,未来更多的机会会更多在Information这个主题,延伸出来未来10年、20年、30年的前景。特别是未来这30年,这个时代将会是大I小T的时代,更多的主轴是在Information主题。,
ZDNet:从Teradata以及服务客户的经验看,如果让您建议一个企业要建立起自己的大数据战略,应该要去准备什么战略?
辛儿伦:首先建议客户要先问自身几个问题,那就是为什么要建立自己的大数据战略?是什么业务发展方向需要数据驱动型战略?。大数据战略要针对具体的业务场景,有了明确的业务场景目标,建设驾驭大数据的能力才有针对性性和使命感。
例如某企业要提升他的客户价值贡献度,希望建立起大数据战略,能够通过与客户的多种互动渠道的信息中获得洞察例如通过360度的统一客户视图等,在正确的时间、正确的地点、适当的方式,提供这位客户需要的服务或产品。又如金融机构通过建立起针对风险控制的大数据战略,能够发现和判断自己企业面对的风险以及危害程度,如担保圈分析等。如电信运营商可以通过建立针对客户服务品质优化的大数据战略,发现即将离网的用户等,提高自己的业务支持并挽留用户。
但是,在这里我要强调一点,数据驱动型战略不等同于数据收集战略,目前企业应尽量避免“存而不用”,建立大数据能力绝不是收集数据、存数据。
根据我们协助全球许多客户建设高效的大数据战略呢?,我想分享几个成功的关键:
第一,全面。企业需要采取宏观视角来识别构成高效体系的诸多不同要素,将不同的数据集(比如内部和外部数据流,或来自企业不同职能部门的信息)链接起来,通过关联分析,找出富有意义的信息。
第二,以业务为核心。针对大数据的战略规划应当以业务为导向,大数据战略并非科学项目,而是必须以满足实际的业务需求为核心。
第三,灵活。必须考虑到未来的使用情形,大数据战略和大数据分析方法论应避免常见的限制,比如过多地依赖于单一技术或单一平台模式或过于制式的流程等;由于数据驱动的转型不会一步到位或立刻传遍整个企业,因此在制定战略时,必须认识到价值是逐步创造出来的,并将整个演变过程考虑在内。
第四,有条理且可扩展。要确保大数据战略能够得到全面贯彻,而不是导致另一大群数据孤岛的产生。
第五,数据分析、科学决策。形成以分析为导向的思维方式,并培养真正的数据驱动文化。
以上是小编为大家分享的关于大数据分析的未来图景 万物皆可分析的相关内容,更多信息可以关注环球青藤分享更多干货
F. 大数据分析是什么,怎么分析的呢
朋友刚打电话说想吃日料,你打开手机某团APP就会显示有日料团购推荐,刚在某信上说要去日本玩,就在盆友圈看到了机票广告。你是否有过疑惑,为什么我的手机APP如此了解我?难道是我的日常生活习惯大数据被分析了吗?
大数据是什么?
大数据不仅仅是大量的数据,而且是来自不同来源,存在不同类型,代表不同含义的海量数据。大数据应该动态变化,不断增加,而且能够通过研究分析发现规律产生价值。
大数据可以帮助我们根据对历史情况的分析,发现事物的发展变化规律,可以有助于更好的提高生产效率,预防意外发生,促进营业销售,使我们的工作和生活变得更加高效轻松便利。
当然APP不会窃取你的数据,是你的行为数据让某团和某信意识到了你的需求,才有了以下推荐。
当你注册一个APP账号的时候,需要输入电话,姓名,性别,所在地等基础数据,更进一步的数据是你的消费记录,发过的红包,日常用语习惯,打车记录,外卖订单记录等等,这些数据会变成你的事实标签,成为你行为数据很重要的一部分。
上边提到的大数据分析不仅仅是收集庞大的数据,更是建立模型,分析数据资料,并得出一系列结论的系统过程。从杂乱的数据中分析出你的兴趣爱好,进而构建全面的用户画像。
举个例子来说,当你打开一篇标签为雪地靴的文章时,你的行为可能是专门点开,也可能是无意中点开,这个时候就需要更多的行为来判断这篇文章对你的吸引力了。
这是一个非常初级的内容标签权重算法:
兴趣标签(雪地靴)权重 = 行为权重 x 访问时长 x 衰减因子
行为权重:什么都不干1分,评论+0.5,点赞+0.5,转发+2,收藏+1
时长权重:10S以内权重为0.5,10S-60S为1,60S以上为2
衰减因子:0-3天内权重为1,3-7天权重为0.85,7-15天权重为0.7,15-30天权重为0.5,30天以上权重为0.1
行为权重对应你是否有评论、点赞、转发、收藏等操作,不同操作有不同的数值,累加成行为权重。停留时间越长,时间权重也越高。最后,短期行为也无法代表长期兴趣,单次阅读行为的权重会随着时间流逝不断衰减。于是,你每次打开雪地靴类的内容都会生成一个兴趣权重,根据型渣函数公式得到一个兴趣标签值,数值越高,你对雪地靴就越感兴趣。
当你各个方面的偏好被计算完成之后,这些偏好就会变成特征向量,再通过计算特征向量找出与你相似的人并分类。再通过训练模型和测试准确度,最终,你的某信,某宝和某团等APP就会得到一个相对于较全面你的用户画像,上边标注了你被分析之后的行为事实标签。根据这个用户画像,广告主就可以根据这个找到他们想要的消费者了。
之后,一个住在黑龙江漠河的有过雪地靴消费记录的未婚女青年在即将刷到广告位的那一瞬间,广告平台会发起竞价请求,最后价高的广告将出现在你的眼前。
需要说明的是,某宝某信和某团等采集的行为数据不仅只对应你的账号,更与你的手机唯一识别码绑定在一起,这意味着,你就算不注册不登录,你的行为数据一样会被采集。同时,广告平台也可以根据你的手机识别码在其他 App 上为你投放广告,这样你刷某音的时候也能看到某宝的雪地靴广告了。
不过大家不要紧张隐私泄露问题,根据国家《个人信息安全规范》,商业广告平台卜蠢悄的所有标签都应该避免精档空确定位到个人,以保护你的隐私安全 。
G. 一文看懂大数据的技术生态圈
一文看懂大数据的技术生态圈
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。
大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大),一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说,单机处理是不可忍受的,比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapRece / Tez / Spark的功能。MapRece是第一代计算引擎,Tez和Spark是第二代。MapRece的设计,采用了很简化的计算模型,只有Map和Rece两个计算过程(中间用Shuffle串联),用这个模型,已经可以处理大数据领域很大一部分问题了。那什么是Map什么是Rece?考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一个MapRece程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似(hello, 12100次),(world,15214次)等等这样的Pair(我这里把Map和Combine放在一起说以便简化);这几百台机器各自都产生了如上的集合,然后又有几百台机器启动Rece处理。Recer机器A将从Mapper机器收到所有以A开头的统计结果,机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据,而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多,而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Recer将再次汇总,(hello,12100)+(hello,12311)+(hello,345881)= (hello,370292)。每个Recer都如上处理,你就得到了整个文件的词频结果。这看似是个很简单的模型,但很多算法都可以用这个模型描述了。Map+Rece的简单模型很黄很暴力,虽然好用,但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature,本质上来说,是让Map/Rece模型更通用,让Map和Rece之间的界限更模糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞吐量。有了MapRece,Tez和Spark之后,程序员发现,MapRece的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapRece,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapRece程序,丢给计算引擎去计算,而你就从繁琐的MapRece程序中解脱出来,用更简单更直观的语言去写程序了。有了Hive之后,人们发现SQL对比Java有巨大的优势。一个是它太容易写了。刚才词频的东西,用SQL描述就只有一两行,MapRece写起来大约要几十上百行。而更重要的是,非计算机背景的用户终于感受到了爱:我也会写SQL!于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来,工程师也从写奇怪的一次性的处理程序中解脱出来。大家都开心了。Hive逐渐成长成了大数据仓库的核心组件。甚至很多公司的流水线作业集完全是用SQL描述,因为易写易改,一看就懂,容易维护。自从数据分析人员开始用Hive分析数据之后,它们发现,Hive在MapRece上跑,真鸡巴慢!流水线作业集也许没啥关系,比如24小时更新的推荐,反正24小时内跑完就算了。但是数据分析,人们总是希望能跑更快一些。比如我希望看过去一个小时内多少人在充气娃娃页面驻足,分别停留了多久,对于一个巨型网站海量数据下,这个处理过程也许要花几十分钟甚至很多小时。而这个分析也许只是你万里长征的第一步,你还要看多少人浏览了跳蛋多少人看了拉赫曼尼诺夫的CD,以便跟老板汇报,我们的用户是猥琐男闷骚女更多还是文艺青年/少女更多。你无法忍受等待的折磨,只能跟帅帅的工程师蝈蝈说,快,快,再快一点!于是Impala,Presto,Drill诞生了(当然还有无数非著名的交互SQL引擎,就不一一列举了)。三个系统的核心理念是,MapRece引擎太慢,因为它太通用,太强壮,太保守,我们SQL需要更轻量,更激进地获取资源,更专门地对SQL做优化,而且不需要那么多容错性保证(因为系统出错了大不了重新启动任务,如果整个处理时间更短的话,比如几分钟之内)。这些系统让用户更快速地处理SQL任务,牺牲了通用性稳定性等特性。如果说MapRece是大砍刀,砍啥都不怕,那上面三个就是剔骨刀,灵巧锋利,但是不能搞太大太硬的东西。这些系统,说实话,一直没有达到人们期望的流行度。因为这时候又两个异类被造出来了。他们是Hive on Tez / Spark和SparkSQL。它们的设计理念是,MapRece慢,但是如果我用新一代通用计算引擎Tez或者Spark来跑SQL,那我就能跑的更快。而且用户不需要维护两套系统。这就好比如果你厨房小,人又懒,对吃的精细程度要求有限,那你可以买个电饭煲,能蒸能煲能烧,省了好多厨具。上面的介绍,基本就是一个数据仓库的构架了。底层HDFS,上面跑MapRece/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。那如果我要更高速的处理呢?如果我是一个类似微博的公司,我希望显示不是24小时热博,我想看一个不断变化的热播榜,更新延迟在一分钟之内,上面的手段都将无法胜任。于是又一种计算模型被开发出来,这就是Streaming(流)计算。Storm是最流行的流计算平台。流计算的思路是,如果要达到更实时的更新,我何不在数据流进来的时候就处理了?比如还是词频统计的例子,我的数据流是一个一个的词,我就让他们一边流过我就一边开始统计了。流计算很牛逼,基本无延迟,但是它的短处是,不灵活,你想要统计的东西必须预先知道,毕竟数据流过就没了,你没算的东西就无法补算了。因此它是个很好的东西,但是无法替代上面数据仓库和批处理系统。还有一个有些独立的模块是KV Store,比如Cassandra,HBase,MongoDB以及很多很多很多很多其他的(多到无法想象)。所以KV Store就是说,我有一堆键值,我能很快速滴获取与这个Key绑定的数据。比如我用身份证号,能取到你的身份数据。这个动作用MapRece也能完成,但是很可能要扫描整个数据集。而KV Store专用来处理这个操作,所有存和取都专门为此优化了。从几个P的数据中查找一个身份证号,也许只要零点几秒。这让大数据公司的一些专门操作被大大优化了。比如我网页上有个根据订单号查找订单内容的页面,而整个网站的订单数量无法单机数据库存储,我就会考虑用KV Store来存。KV Store的理念是,基本无法处理复杂的计算,大多没法JOIN,也许没法聚合,没有强一致性保证(不同数据分布在不同机器上,你每次读取也许会读到不同的结果,也无法处理类似银行转账那样的强一致性要求的操作)。但是丫就是快。极快。每个不同的KV Store设计都有不同取舍,有些更快,有些容量更高,有些可以支持更复杂的操作。必有一款适合你。除此之外,还有一些更特制的系统/组件,比如Mahout是分布式机器学习库,Protobuf是数据交换的编码和库,ZooKeeper是高一致性的分布存取协同系统,等等。有了这么多乱七八糟的工具,都在同一个集群上运转,大家需要互相尊重有序工作。所以另外一个重要组件是,调度系统。现在最流行的是Yarn。你可以把他看作中央管理,好比你妈在厨房监工,哎,你妹妹切菜切完了,你可以把刀拿去杀鸡了。只要大家都服从你妈分配,那大家都能愉快滴烧菜。你可以认为,大数据生态圈就是一个厨房工具生态圈。为了做不同的菜,中国菜,日本菜,法国菜,你需要各种不同的工具。而且客人的需求正在复杂化,你的厨具不断被发明,也没有一个万用的厨具可以处理所有情况,因此它会变的越来越复杂。以上是小编为大家分享的关于一文看懂大数据的技术生态圈的相关内容,更多信息可以关注环球青藤分享更多干货
H. 大数据分析的具体内容有哪些
随着互联网的不断发展,大数据技术在各个领域都有不同程度的应用
1、采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
2、导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3、统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4、挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。