导航:首页 > 网络数据 > 大数据系统级

大数据系统级

发布时间:2023-01-29 06:42:14

大数据系统有哪些

大数据可视化系统(一)思迈特软件Smartbi

思迈特软件Smartbi是一款商业智能BI工具,做数据分析和可视化数据展现,以分析为主,提供多种数据接入方式,可视化功能强大,平台更适合掌握分析方法了解分析的思路的用户,其他用户的使用则依赖于分析师的结果输出。

Smartbi也是小编找了很久感觉很不错的一款大数据可视化系统。其中还有很多对数据处理的公式和方法,图表也比较全面。相对于网络的echarts,Smartbi还是一款比较容易入手的数据分析工具。最后,Smartbi提供了免费的版本,功能齐全,更加适合个人对数据分析的学习和使用。

大数据可视化系统(二)ChartBlocks

ChartBlocks是一款网页版的大数据可视化系统,在线使用。通过导入电子表格或者数据库来构建可视化图表。整个过程可以在图表的向导指示下完成。它的图表在HTML5的框架下,使用强大的javaScript库D3js来创建图表。

图表是响应式的,可以和任何的屏幕尺寸及设备兼容。还可以将图表嵌入任何网页中。

大数据可视化系统(三)Tableau

Tableau公司将数据运算与美观的图表完美地嫁接在一起。它的程序很容易上手,各公司可以用它将大量数据拖放到数字”画布”上,转眼间就能创建好各种图表。这一软件的理念是,界面上的数据越容易操控,公司对自己在所在业务领域里的所作所为到底是正确还是错误,就能了解得越透彻。

它们都是为与大数据有关的组织设计的。企业使用这个工具非常方便,而且提供了闪电般的速度。还有一件事对这个工具是肯定的,Tableau具有用户友好的特性,并与拖放功能兼容。但是在大数据方面的性能有所缺陷,每次都是实时查询数据,如果数据量大,会卡顿。

大数据可视化系统(四)AntV

AntV是蚂蚁金服的大数据可视化系统,主要包含专注解决流程与关系分析的图表库G6、适于对性能、体积、扩展性要求严苛场景下使用的移动端图表库F2以及一套完整的图表使用指引和可视化设计规范。

已为阿里集团内外2000+个业务系统提供数据可视化能力,其中不乏日均千万UV级的产品。

❷ 大数据/Hadoop平台开发工程师是做什么的

大数据开发是大数据职业发展的方向之一,从工作内容,大数据开发主要负责处理回和大数据应用,偏重建设和答优化系统。

大数据开发其实分两种:

第一类是编写一些Hadoop、Spark的应用程序;

第二类是对大数据处理系统本身进行开发。通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发,对理论和实践要求的都更深一些,更有技术含量。

❸ 学大数据开发要学Java到什么程度,需要学JavaEE,SSH吗,谁能详细解答一下

JAVASE不用学,学了也没用。即便有公司做桌面开发,也基本不会用的。
SSH当然得学,若连SSH都没学明白,就惦记起大数据,就真是想多了。先把JAVA玩成所谓高手水平,再把SSH学到精通,你才仅仅是能搞“小数据”。本人充其量也仅仅是在“小数据”这一级别,勉强混个温饱,所以最多只能跟你说说该怎么学“小数据”了。
要玩“小数据”,你得先有办法“取得数据”吧? 数据从哪来?表单提交来的。表单在哪?在网站上。所以你得先能搭个网站。否则连数据都得不到,又谈什么大小?
如何搭网站? 先稍微学学html和javscript,知道ajax怎么写。这时候,你才能开始学Spring。Spring学完之后,你就能从后端获取前端发来的请求,验证表单,返回页面,拥有数据来源了。
拿到数据之后。你得把数据存起来吧?所以你得会使数据库吧。于是你得先学SQL,能基本操作数据库的“增删改查”。学完数据库之后,怎么在数据库里的“表”,和java项目里的“类”之间,建立映射关系?这时候,你就得开始学Hibernate了。
Hibernate和Spring学到一半,就产生了一个问题,Hibernate的代码写在哪?Spring的代码又写在哪?它俩总不能“掺和”着写吧?这时候你就需要MVC框架,所以得学Struts了。
等ssh全都学完,摸透,再简单学学Linux,只要能部署就够了,多学无用,能把网站搭出来就够了。
这时候,你就算是入了“小数据”的门。之后再依次学会三层架构,领域驱动模型,MVVM,算是从“入门”走向"熟练"。
到这一步,你就算成为了一名合格的后端程序员了。然后,你才有必要去纠结,是该学人工智能?还是大数据? 云计算?等等。。。。
由于个人是主修C#的,JAVA只作为第二语言,框架部分也只学了前面所说的这些东西,因此关于JAVA的话题,只能跟你扯到这了。

❹ 大数据专业就业前景怎么样

未来3至5年,中国需要180万数据人才,但截至目前,中国大数据从业人员只有约30万人。同时,大数据行业选才的标准也在不断变化。初期,大数据人才的需求主要集中在ETL研发、系统架构开发、数据仓库研究等偏硬件领域,以IT、计算机背景的人才居多。随着大数据往各垂直领域延伸发展,对统计学、数学专业的人才,数据分析、数据挖掘、人工智能等偏软件领域的需求加大。
一、大数据主要就业方向
开发类和大数据分析类。具体岗位如:大数据分析师、大数据工程师等。

“大数据分析师是用适当的统计分析方法对收集来的大量数据进行分析,强调的是数据的应用,侧重于统计层面内容会多一些。比如做产品经理,可以通过数据建立金融模型,来推出一些理财产品。而大数据工程师则侧重于技术,主要是围绕大数据平台系统级的研发,偏开发层面。”华迎教授介绍:“我们把大数据分析在业务中使用的流程总结起来,分为以下几个步骤:数据获取和预处理、数据存储管理、数据分析建模、数据可视化。在这个应用流程中,毕业生可以根据自己的兴趣和特长,在不同的环节选择就业。”
二、大数据工作领域
目前的大数据工作领域分了以下四大类:
1、数据开发工程师:负责数据接入、数据清洗、底层重构,业务主题建模等工作;大数据整体的计算平台开发与应用;
2、数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
3、数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
4、科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

❺ 大数据专业主要学什么

什么是大数据?
在英文里被称为big data,或称为巨量资料,就是当代海量数据构成的一个集合,包括了我们在互联网上的一切信息。
大数据能干什么?
通过对大数据的抽取,管理,处理,并整理成为帮助我们做决策。列如:应用以犯罪预测,流感趋势预测,选举预测,商品推荐预测等等
大数据专业需要学什么?
因为涉及对海量数据的分析,离不开的就是数学,很多很多的数学。按照我们学习计划的安排来看,我在大一大二期间就学了有:数学分析,线性代数,概率统计,应用统计学,离散数学,常微分。相比起其他计算机专业来说,我们确实要学很多数学。然后什么公共课就不用多说了,如:大学英语,大学物理,思想政治,毛概等等。在专业课上,我们首先要学的就是C语言基础,然后就是数据结构,Python基础,Java面向对象程序设计,数据结构与算法,数学建模,大数据等,简直不要太多了,留给图看看吧
未完待写
接着上一次内容
学大数据能做什么工作?
分为三个大类,第一是大数据系统研发类,第二是大数据应用开发类,第三是大数据分析类
大数据分析师:大数据分析师要学会打破信息孤岛利用各种数据源,在海量数据中寻找数据规律,在海量数据中发现数据异常。负责大数据数据分析和挖掘平台的规划、开发、运营和优化;根据项目设计开发数据模型、数据挖掘和处理算法;通过数据探索和模型的输出进行分析,给出分析结果。
大数据工程师: 主要是偏开发层面,指的是围绕大数据系平台系统级的研发人员, 熟练Hadoop大数据平台的核心框架,能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
数据挖掘师/算法工程师: 数据建模、机器学习和算法实现,需要业务理解、熟悉算法和精通计算机编程 。
数据架构师: 高级算法设计与优化;数据相关系统设计与优化,有垂直行业经验最佳,需要平台级开发和架构设计能力。
数据科学家:据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。
薪资待遇方面:
数据科学家->数据架构师==算法工程师>大数据工程师>数据分析师

❻ 大数据时代 大学哪些专业涉及大数据技术与应用

大数据时代 大学哪些专业涉及大数据技术与应用

早在1980年,未来学家阿尔文?托夫勒在 《第三次浪潮》一书中,就将大数据誉为“第三次浪潮的华彩乐章”。现在的大数据更是站在互联网的风口浪尖上,是公众津津乐道的热门词汇。同时这股热潮也催热了大学里的大数据专业。

到底什么是大数据?本科专业中哪个专业是和它相对应的?一般开设在哪些院系?对外经济贸易大学信息学院副院长华迎教授详解这个大家关注的热门专业。

一、专业解析

什么是大数据?

进入互联网时代,中国的网民人数已超7亿,大数据的应用涉及到生活的方方面面。例如,你在网站上买书,商家就会根据你的喜好和其他购书者的评价给你推荐另外的书籍;手机定位数据和交通数据可以帮助城市规划;甚至用户的搜索习惯和股市都有很大关系。

在谈到大数据的时候,人们往往知道的就是数据很大,但大数据≠大的数据。对外经济贸易大学信息学院副院长华迎教授介绍:“现在的大数据包括来自于多种渠道的多类数据,其中主要来源网络数据。数据分析不是新的,一直都有,但是为什么叫大数据呢?主要是因为网络数据的格式、体量、价值,都超出了传统数据的规模。对这些海量信息的采集、存储、分析、整合、控制而得到的数据就是大数据。大数据技术的意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理,通过‘加工’实现数据的‘增值’,更好地辅助决策。”

数据科学与大数据技术专业

本科专业中和大数据相对应的是“数据科学与大数据技术”专业,它是2015年教育部公布的新增专业。2016年3月公布的《高校本科专业备案和审批结果》中,北京大学、对外经济贸易大学和中南大学3所高校首批获批开设“数据科学与大数据技术”专业。随后第二年又有32所高校获批“数据科学与大数据技术”专业。两次获批的名单中显示,该专业学制为四年,大部分为工学。

“数据科学与大数据技术是个交叉性很强的专业,很难说完全归属于哪个独立的学科。所以,不同的学校有的是信息学院申报,有的.是计算机学院牵头申报,有的设在统计学院,还有的在经管学院。像北京大学这个专业是放在理学下,授予理学学位。大多数是设在工学计算机门类下,授予的是工学学位。”华迎教授说:“数据科学很早就存在,是个比较经典的学科,现在和大数据技术结合形成了这个专业。目前教育部设定的本科专业名称为‘数据科学与大数据技术’,专科名称是‘大数据技术与应用’。”

数据科学与大数据技术学什么?

以对外经济贸易大学该专业为例,专业知识结构包括数学、统计、计算机和大数据分析四大模块,具体课程设置如下:

数学:数学分析一、数学分析二、高等代数、离散数学。统计学:概率论与数理统计、多元统计分析、随机过程。计算机:数据结构、计算机组成原理、操作系统、数据库系统原理、C++程序设计、Java程序设计、Python与大数据分析、科学计算与Matlab应用、R语言等。大数据分析:数据科学导论、机器学习与数据挖掘、信息检索与数据处理、自然语言处理、智能计算、推荐系统原理、大数据分析技术基础、数据可视化、大数据存储与管理、大数据分析实践等课程。

华迎教授介绍:“数据科学与大数据技术是一门实践性很强的新兴交叉复合型学科,无论是开设在哪个学院下,数学、统计学、计算机三大块课程是必须得有。各高校在这几门背景学科的基础上,交叉融合其他的专业知识技能。如我校在数学、统计学、计算机知识体系模块中又增加了体现学校特色的财经类行业应用和外语模块,以提升学生的行业应用能力和国际化水平。根据各校偏重的专业方向,课程设置有所差异,感兴趣的同学可以具体查看各校的专业和课程设置情况。”

二、专业与就业

行业增速快 人才缺口180万

随着移动互联网和智能终端的普及,信息技术与经济社会的交汇融合,引发了数据迅猛增长。新摩尔定律认为,人类有史以来的数据总量,每过18个月就会翻一番。而海量的数据蕴含着巨大生产力和商机。

2011年至2014年四年间,我国大数据处于起步阶段,每年均增长在20%以上。2015年,大数据市场规模已达到98.9亿元。2016年增速达到45%,超过160亿元。预计2020年,我国大数据市场规模将超过8000亿元,有望成世界第一数据资源大国。但数据开放度低、技术薄弱、人才缺失、行业应用不深入等都是产业发展中亟待解决的问题。

根据领英发布《2016年中国最热职位人才报告》显示,有六类热门职位的人才当前都处于供不应求状态,稀缺程度各有不同,其中,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺。

中国商业联合会数据分析专业委员会资料显示,未来3至5年,中国需要180万数据人才,但截至目前,中国大数据从业人员只有约30万人。同时,大数据行业选才的标准也在不断变化。初期,大数据人才的需求主要集中在ETL研发、系统架构开发、数据仓库研究等偏硬件领域,以IT、计算机背景的人才居多。随着大数据往各垂直领域延伸发展,对统计学、数学专业的人才,数据分析、数据挖掘、人工智能等偏软件领域的需求加大。

大数据主要就业方向

2015年9月国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《纲要》明确提出了七方面政策机制,其中第六条就是加强专业人才培养,建立健全多层次、多类型的大数据人才培养体系。目前,大数据主要有三大就业方向:大数据系统研发类、大数据应用开发类和大数据分析类。具体岗位如:大数据分析师、大数据工程师等。

“大数据分析师是用适当的统计分析方法对收集来的大量数据进行分析,强调的是数据的应用,侧重于统计层面内容会多一些。比如做产品经理,可以通过数据建立金融模型,来推出一些理财产品。而大数据工程师则侧重于技术,主要是围绕大数据平台系统级的研发,偏开发层面。”华迎教授介绍:“我们把大数据分析在业务中使用的流程总结起来,分为以下几个步骤:数据获取和预处理、数据存储管理、数据分析建模、数据可视化。在这个应用流程中,毕业生可以根据自己的兴趣和特长,在不同的环节选择就业。”

三、报考指南

院校开设情况

教育部关于公布2015年度普通高等学校本科专业备案和审批结果的通知教育部关于公布2016年度普通高等学校本科专业备案和审批结果的通知在“教育部2015年度普通高等学校本科专业备案和审批结果”中北京大学、中南大学、对外经贸大学成为首批开设 “数据科学与大数据技术”本科专业的高校,随后中国人民大学、北京邮电大学、复旦大学等32所高校成为第二批成功申请该专业的高校。目前,我国已有35所高校获批“数据科学与大数据技术”本科专业,第三批申请结果也即将公布。

数据科学与大数据技术是个交叉性强、跨学科的专业,很难说是完全归属与那个独立的学科。高校牵头申报的学院不同,培养重点和授予的学位可能不一样。因为课程来自于不同的学院,也有高校是联合一些学院单独成立机构来申报。从名单可以看出,在大部分开设院校中该专业都属于工学类,有个别院校将其归属在理学门类,授予理学学位。

有志于学习数据科学与大数据技术专业的学生,可以从大学的传统优势领域和行业背景考虑选择。比如,复旦大学的大数据技术本科专业是设在大数据学院下;北京大学是在数学院开设了该专业,偏数学的内容更多一些。对外经济贸易大学该专业设在信息学院,因为财经是学校传统优势,专业还会偏重经济、金融等相关学科领域的知识。

录取分数不低

从2017年数据科学与大数据技术专业的录取情况看,该专业的录取分数还是比较高的。以对外经济贸易大学和重庆理工大学为例,2017年对外经贸大学数据科学与大数据技术专业在京理科一批录取最高分653分,最低分646分,平均分650分,平均分高出北京一本批次线113分。

重庆理工大学理学院院长李波介绍,学校理学院有金融数学、数学与应用数学、信息与计算科学、应用统计学、应用物理学、新能源科学与工程专业,数据科学与大数据技术是2017年获批后开设的。尽管该专业属于本科二批招生,但首批数据科学与大数据技术专业所招73名学生的平均分超一本线20分左右,并且第一志愿录取率达百分之百。

只招理科生 注意大类招生

考生报考时要注意,目前获批开设的院校并非在所有省都有招生计划,还有的高校是按大类招生。如北京邮电大学该专业2017年本科就是按计算机大类招生。随着各省高考改革的实施,越来越多的省份加入新高考的序列,未来会有更多的高校施行按大类招生。

值得注意的是,数据科学与大数据技术只招理科生,但女生的比例并不低。据华迎教授介绍:“第一年招生时,我们以为这纯工科专业绝大部分都会是男生报考,录取后发现女生还是很多的,女生比例大概占了这个专业总人数的一半儿。” 重庆理工大学2017年的首批73名学生中,男生45人,女生28人,女生比例占总人数38%。


❼ 大数据毕业以后都是干什么的

大数据的就业岗位还是很多的,大数据岗位高薪清单对于求职者来说,大数据只是所从事事业的一个方向,而职业岗位则是决定做什么事?大数据从业者/求职者可以根据自身所学技术及兴趣特征,选择一个适合自己的大数据相关岗位。下面为大家介绍十种与大数据相关的热门岗位。
1 ETL研发企业数据种类与来源的不断增加,对数据进行整合与处理变得越来越困难,企业迫切需要一种有数据整合能力的人才。ETL开发者这是在此需求基础下而诞生的一个职业岗位。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,Hadoop只是穷人的ETL
2 Hadoop开发随着数据规模不断增大,传统BI的数据处理成本过高企业负担加重。而Hadoop廉价的数据处理能力被重新挖掘,企业需求持续增长。并成为大数据人才必须掌握的一种技术。
3 可视化工具开发可视化开发就是在可视化工具提供的图形用户界面上,通过操作界面元素,有可视化开发工具自动生成相关应用软件,轻松跨越多个资源和层次连接所有数据。过去,数据可视化属于商业智能开发者类别,但是随着Hadoop的崛起,数据可视化已经成了一项独立的专业技能和岗位。
4 信息架构开发大数据重新激发了主数据管理的热潮。充分开发利用企业数据并支持决策需要非常专业的技能。信息架构师必须了解如何定义和存档关键元素,确保以最有效的方式进行数据管理和利用。信息架构师的关键技能包括主数据管理、业务知识和数据建模等。
5 数据仓库研究为方便企业决策,出于分析性报告和决策支持的目的而创建的数据仓库研究岗位是一种所有类型数据的战略集合。为企业提供业务智能服务,指导业务流程改进和监视时间、成本、质量和控制。
6 OLAP开发OLAP在线联机分析开发者,负责将数据从关系型或非关系型数据源中抽取出来建立模型,然后创建数据访问的用户界面,提供高性能的预定义查询功能。
7 数据科学研究数据科学家是一个全新的工种,能够将企业的数据和技术转化为企业的商业价值。随着数据学的进展,越来越多的实际工作将会直接针对数据进行,这将使人类认识数据,从而认识自然和行为。8 数据预测分析营销部门经常使用预测分析预测用户行为或锁定目标用户。预测分析开发者有些场景看上有有些类似数据科学家,即在企业历史数据的基础上通过假设来测试阈值并预测未来的表现。
8 数据预测分析营销部门经常使用预测分析预测用户行为或锁定目标用户。预测分析开发者有些场景看上有有些类似数据科学家,即在企业历史数据的基础上通过假设来测试阈值并预测未来的表现。
9 企业数据管理企业要提高数据质量必须考虑进行数据管理,并需要为此设立数据管家职位,这一职位的人员需要能够利用各种技术工具汇集企业周围的大量数据,并将数据清洗和规范化,将数据导入数据仓库中,成为一个可用的版本。
10 数据安全研究数据安全这一职位,主要负责企业内部大型服务器、存储、数据安全管理工作,并对网络、信息安全项目进行规划、设计和实施。

❽ 大数据在哪儿学比较好

大数据这个专业当然是在首都学习最好。因为在那儿你遇到真正的神级大数据讲师的概率会大幅提高。

❾ 如何架构大数据系统 hadoop

Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。
1. 大数据分析大分类
Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。
按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
按照大数据的数据量,分为内存级别、BI级别、海量级别三种。
这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。图1是一种实际可行的MongoDB分析架构。

图1 用于实时分析的MongoDB架构
MongoDB大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步失效,但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。
此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到内存分析的性能。随着SSD的发展,内存数据分析必然能得到更加广泛的应用。
BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多,就不具体列举了。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapRece进行分析。本文稍后将主要介绍Hadoop上基于MapRece的一个多维数据分析平台。
数据分析的算法复杂度
根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的分析性能。
还有很多易并行问题(Embarrassingly Parallel),计算可以分解成完全独立的部分,或者很简单地就能改造出分布式算法,比如大规模脸部识别、图形渲染等,这样的问题自然是使用并行处理集群比较适合。
而大多数统计分析,机器学习问题可以用MapRece算法改写。MapRece目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。
2. 面对大数据OLAP大一些问题

OLAP分析需要进行大量的数据分组和表间关联,而这些显然不是NoSQL和传统数据库的强项,往往必须使用特定的针对BI优化的数据库。比如绝大多数针对BI优化的数据库采用了列存储或混合存储、压缩、延迟加载、对存储数据块的预统计、分片索引等技术。

Hadoop平台上的OLAP分析,同样存在这个问题,Facebook针对Hive开发的RCFile数据格式,就是采用了上述的一些优化技术,从而达到了较好的数据分析性能。如图2所示。
然而,对于Hadoop平台来说,单单通过使用Hive模仿出SQL,对于数据分析来说远远不够,首先Hive虽然将HiveQL翻译MapRece的时候进行了优化,但依然效率低下。多维分析时依然要做事实表和维度表的关联,维度一多性能必然大幅下降。其次,RCFile的行列混合存储模式,事实上限制死了数据格式,也就是说数据格式是针对特定分析预先设计好的,一旦分析的业务模型有所改动,海量数据转换格式的代价是极其巨大的。最后,HiveQL对OLAP业务分析人员依然是非常不友善的,维度和度量才是直接针对业务人员的分析语言。
而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
使用Hadoop进行多维分析,首先能解决上述维度难以改变的问题,利用Hadoop中数据非结构化的特征,采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中,这样可以在冗余维度下灵活地改变问题分析的角度。其次利用Hadoop MapRece强大的并行化处理能力,无论OLAP分析中的维度增加多少,开销并不显著增长。换言之,Hadoop可以支持一个巨大无比的Cube,包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显著影响分析的性能。


而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
3. 一种Hadoop多维分析平台的架构
整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分 析模块。

数据采集模块采用了Cloudera的Flume,将海量的小日志文件进行高速传输和合并,并能够确保数据的传输安全性。单个collector宕机之后,数据也不会丢失,并能将agent数据自动转移到其他的colllecter处理,不会影响整个采集系统的运行。如图5所示。

数据冗余模块不是必须的,但如果日志数据中没有足够的维度信息,或者需要比较频繁地增加维度,则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源(数据库、文件、内存等),并指定扩展方式,将信息写入数据日志中。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,建议使用一些比较快的内存NoSQL来冗余原始数据,并采用尽可能多的节点进行并行冗余;或者也完全可以在Hadoop中执行批量Map,进行数据格式的转化。

维度定义模块是面向业务用户的前端模块,用户通过可视化的定义器从数据日志中定义维度和度量,并能自动生成一种多维分析语言,同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。
并行分析模块接受用户提交的多维分析命令,并将通过核心模块将该命令解析为Map-Rece,提交给Hadoop集群之后,生成报表供报表中心展示。
核心模块是将多维分析语言转化为MapRece的解析器,读取用户定义的维度和度量,将用户的多维分析命令翻译成MapRece程序。核心模块的具体逻辑如图6所示。

图6中根据JobConf参数进行Map和Rece类的拼装并不复杂,难点是很多实际问题很难通过一个MapRece Job解决,必须通过多个MapRece Job组成工作流(WorkFlow),这里是最需要根据业务进行定制的部分。图7是一个简单的MapRece工作流的例子。

MapRece的输出一般是统计分析的结果,数据量相较于输入的海量数据会小很多,这样就可以导入传统的数据报表产品中进行展现。

阅读全文

与大数据系统级相关的资料

热点内容
epg文件格式 浏览:699
wordpress分类描述 浏览:177
python用代码转文件xy格式 浏览:802
教育门户网站模板 浏览:331
四光感巡线程序乐高 浏览:989
怎么标记文件 浏览:972
为什么副卡数据打不开 浏览:109
苹果voiceover永久关闭 浏览:749
梦幻西游新版本普陀山 浏览:453
win10选择其他系统文件类型 浏览:980
pythonjson数组 浏览:227
乐翻儿歌历史版本 浏览:216
为什么删除文件很慢 浏览:527
压缩包里面的cad文件保存去哪里了 浏览:735
聚合产业促升级 浏览:207
魅蓝系统升级50 浏览:92
xp支持文件名路径 浏览:330
两融最新数据什么时候更新 浏览:462
pe模式win10桌面文件在哪 浏览:388
产品ooba文件是什么 浏览:68

友情链接