Ⅰ 大数据之Ambari2.7+HDP3.0(一)
公司目前在开展大数据业务,在大数据框架选型方面一直在Ambari+HDP 和CM+CDH之中徘徊。我就尝试动手搭建了两套环境来试试效果。接下来我会记录搭建HDP和CDH环境的详细步骤。。
如果是生产环境打算用ambari+hdp,不建议用高版本,因为后期需要自己整合一些组件,比如impala、flume,很麻烦,特别是版本不匹配的时候,简直吐血。。
接下来的我会把搭建过程一一记录下来。。机器使用的是阿里云的。。
总共用了四台阿里云的机器来做环境搭建测试
以下以在ambari.gey.com机器上做的演示,其他机器做前三步修改即可
[root@iZhp3d9vtcbp6p96whe4uvZ ~]#
NETWORKING=yes
HOSTNAME=ambari.gey.com
[root@iZhp3d9vtcbp6p96whe4uvZ ~]#
172.25.147.10 ambari.gey.com
172.25.147.11 master.gey.com
172.25.147.12 slave1.gey.com
172.25.147.13 slave2.gey.com
[root@iZhp3d9vtcbp6p96whe4uvZ ~]#
ambari.gey.com
[root@iZhp3d9vtcbp6p96whe4uvZ ~]# systemctl status firewalld.service
[root@iZhp3d9vtcbp6p96whe4uvZ ~]# systemctl disable firewalld.service
注意:修改完上述配置后重启
[root@ambari ~]# yum install openssl
检查是否已安装:[root@ambari ~]# rpm -qa | grep ntp
未安装则安装:[root@ambari ~]# yum install ntp ntpdate -y
[root@ambari ~]# vim /etc/selinux/config
SELINUX=disabled
安装httpd服务:[root@ambari ~]# yum install httpd -y
开启httpd服务:[root@ambari ~]# systemctl start httpd.service
开机启动:[root@ambari ~]# systemctl enable httpd.service
测试httpd服务是否能使用:把HTTP样本放到/var/www/html目录里,在浏览器输入
http://服务器IP ,看是否能进入HTTP样本网页
[root@ambari ~]# ssh-keygen -t rsa -f ~/.ssh/id_rsa
连续三次回车即可,再查看.ssh目录下,会生产两个文件:id_rsa和id_rsa.pub,其中id_rsa表示私钥,id_rsa.pub表示公钥
[root@ambari .ssh]# ssh--id ambari.gey.com
[root@ambari .ssh]# ssh--id master.gey.com
[root@ambari .ssh]# ssh--id slave1.gey.com
[root@ambari .ssh]# ssh--id slave2.gey.com
以上只是ambari.gey.com--->ambari.gey.com 、master.gey.com、slave1.gey.com、slave2.gey.com
同样的,如果需要可以继续做:
master.gey.com ---> ambari.gey.com 、master.gey.com、slave1.gey.com、slave2.gey.com
slave1.gey.com ---> ambari.gey.com 、master.gey.com、slave1.gey.com、slave2.gey.com
slave2.gey.com ---> ambari.gey.com 、master.gey.com、slave1.gey.com、slave2.gey.com
[root@master ~]# mkdir -p /usr/local/software/java/
[root@slave1 ~]# mkdir -p /usr/local/software/java/
[root@slave2 ~]# mkdir -p /usr/local/software/java/
先将压缩包上传到ambari.gey.com机器上的某个目录下,然后进行解压操作
[root@ambari software]#
tar -zvxf jdk-8u181-linux-x64.tar.gz -C /usr/local/software/java/
1)分发到master.gey.com机器上
[root@ambari java]#
scp -r jdk1.8.0_181 [email protected] :/usr/local/software/java
2)分发到slave1.gey.com机器上
[root@ambari java]#
scp -r jdk1.8.0_181 [email protected] :/usr/local/software/java
3)分发到slave2.gey.com机器上
[root@ambari java]#
scp -r jdk1.8.0_181 [email protected] :/usr/local/software/java
[root@ambari jdk1.8.0_181]# vim /etc/profile
export JAVA_HOME=/usr/local/software/java/jdk1.8.0_181
export PATH=${JAVA_HOME}/bin:$PATH
[root@ambari jdk1.8.0_181]# source /etc/profile
[root@ambari jdk1.8.0_181]# java -version
查看java版本时,会报错:
-bash: /usr/local/software/java/jdk1.8.0_181/bin/java: Permission denied
解决方法:
chmod 777 /usr/local/software/java/jdk1.8.0_181/bin/java
如下图所示:
此处,我们采用本地安装方式,安装在ambari.gey.com机器上,由于存放ambari-server的元数据、hive元数据以及其他组件的元数据
MySQL-server-5.6.24-1.el6.x86_64.rpm
MySQL-client-5.6.24-1.el6.x86_64.rpm
[root@ambari mysofts]# rpm -qa|grep mariadb
[root@ambari mysofts]# rpm -qa | grep -i mysql 加i表示不区分大小写
如果已经存在,则需要先卸载
[root@ambari mysofts]# rpm -e --nodeps mariadb-libs-5.5.60-1.el7_5.x86_64
1)执行安装:[root@ambari mysofts]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm
2)启动服务:[root@ambari mysofts]# service mysql start
3)查看状态:[root@ambari mysofts]# service mysql status
报错1:lio.so.1()(64bit) is needed by MySQL-server-5.6.24-1.el6.x86_64
解决方法:yum -y install lio
卸载掉刚才安装的Mysql服务,重新安装
卸载步骤:
[root@ambari mysofts]# rpm -qa | grep -i mysql
[root@ambari mysofts]# rpm -e --nodeps MySQL-server-5.6.24-1.el6.x86_64
[root@ambari mysofts]# rm -rf /var/lib/mysql/
[root@ambari mysofts]# whereis mysql
[root@ambari mysofts]# rm -rf /usr/lib64/mysql
[root@ambari mysofts]# rm –rf /usr/my.cnf
[root@ambari mysofts]# rm -rf /root/.mysql_sercret
再重新安装
1)执行安装:[root@ambari mysofts]# rpm -ivh MySQL-client-5.6.24-1.el6.x86_64.rpm
2)查看密码:[root@ambari mysofts]# cat /root/.mysql_secret
3)登录mysql:[root@ambari mysofts]# mysql -uroot -p随机密码
4)修改密码:set password=password('gey20190416');
5)退出重登:[root@ambari mysofts]# mysql -uroot -pgey20190416
6)修改mysql.user表内容:
mysql> use mysql
mysql> select User, Host, Password from user;
mysql> delete from user where Host='::1';
mysql> flush privileges;
Ⅱ 技术落地性成大数据竞争赛点,鲲鹏大数据解决方案凭何领先
文 | 曾响铃
来源 | 科技 向令说(xiangling0815)
新基建浪潮下,作为底层支撑力量的数据与计算正变得越来越重要。
最近,由中国大数据与智能计算产业联盟主办,以“新算力 新基建 新经济”为主题的第二届中国超级算力大会ChinaSC在北京召开,包括国内外院士、知名学者和产业大咖在内的600多人参加,探讨了超级计算、新基建、云计算、大数据、人工智能、区块链等前沿技术进展。
这个奖项的颁出,官方给出的标准是,“能够把当前的各种技术有机的整合在一起,以满足不同应用场景下的各种综合的软硬件及系统方案,集科学性、先进性、稳定性、经济性等众多实际指标于一身,是技术转变为实际应用的关键环节。”
显然,这个权威奖项最关心的,是大数据解决方案在推动技术向实际应用转变的能力,而这也正是当下市场环境对大数据的核心需求。笔者尝试拆解鲲鹏大数据解决方案从宏观到操作层面的布局,希望能给予相关从业者这方面的行业借鉴。
技术竞赛不停, 但大数据需求转向应用落地
数据的价值越来越明显,更好地释放数据价值的技术在不断演化,但是,随着更多政企组织开始着手利用大数据能力帮助现实业务提升,其需求也开始更多倾向于技术能否更好地实现应用落地,大数据解决方案正是为此而生。
以鲲鹏为案例,在推动技术落地的过程中,其大数据解决方案表现出符合时代需要的三大特征,让它在新趋势下占据领先优势,受到客户广泛欢迎并获得ChinaSC权威认可。
1、超高性能仍然是应用落地的最有力支撑
大数据解决方案要推动技术实现各种场景的落地,其前提和支撑,是底层软硬件性能本身要足够强悍,否则,再完善和深度的解决方案,没有性能支撑也只能是空中楼阁。
而也只有性能足够强悍,在应用落地阶段才能够尽可能去满足客户各类数据价值需求。
得益于底层软硬件能力的深度开发,鲲鹏大数据解决方案就拥有超高性能,为应用做好了充分的准备以及支撑。
例如,硬件方面,采用自主研发高性能鲲鹏920处理器,软件方面,则拥有在大数据场景下获得倍级性能提升的独创IO智能预取和Spark机器学习&图增强算法。
以鲲鹏与浙江移动的合作为例,2019年,浙江移动相继完成了IT云鲲鹏服务器测试,营业厅前台系统、CRM、计费、大数据、CDN等系统的验证及上线商用。这其中,浙江移动的CRM&BOSS系统在鲲鹏大数据方案支撑下,整体得到了较大提升,在规模承载网络运营支撑业务的情况下,该系统现在已经稳定运行一年。
目前,浙江移动围绕网络云,IT云和移动云,已经打造了全球首个运营商领域ICT全场景样板点。
2、全栈方案才能推动技术全面落地
解决方案本身并不是一种具体的技术,其价值在于各种技术的有效融汇,作为统一的输出方式面向政企客户。而在政企客户需求日益加深的情况下,尽可能满足多种场景、多种技术诉求的解决方案,就必须建立一套尽可能完善的全栈体系,将各种技术有机地、系统地、全面地整合在一起。
这正是华为鲲鹏大数据解决方案的体系构成,其基于鲲鹏处理器,构建了端到端打通硬件、操作系统、中间件、大数据软件的全栈体系,并对应进行了全栈性能优化,推动各类技术汇聚成高性能解决方案:
可以看到,这套全栈体系,一方面通过有机整合,能够较为容易地同时满足科学性、先进性、稳定性、经济性等需求(例如,加速特性和大数据组件能够帮助方案更有效率同时成本更低);另一方面,作为全面、完整、一体化的信息化解决方案,也更容易去适应政府、金融、电信、互联网、大企业等不同行业应用需求。
从技术到应用落地,“全栈”成为重要的中间转换环节,不但“无损”,而且“增益”。
3、符合政企个性化需求让技术落地更具现实价值
在最终面向单个客户落地时,大数据解决方案还需要真正贴合这个客户的实际需要,这是从技术到应用落地的“临门一脚”,毕竟,不论性能如何强悍,全栈体系如何完善灵活,落实到客户头上,最终还是需要符合业务实际,产生现实价值。
既要有能力,更需要契合,鲲鹏大数据解决方案就是这么做的。
2019年,江苏省基于鲲鹏架构打造了全国首个省区市县三级政务大数据,未来将有越来越多的政务系统可以由自主可靠的鲲鹏计算平台来承载;
在广西,区内首个鲲鹏产业生态云项目——“壮美广西·玉林政务云(鲲鹏云)”已于不久前上线,这是该市全面推广应用广西数字政务一体化平台的体现,而其推出的广西首个市级公共数据开放管理办法,就与鲲鹏的大数据解决方案紧密相关;
目光转到浙江,在鲲鹏生态落子浙江的过程中,浙江推动形成“用鲲鹏”的共识,城市被当成鲲鹏生态的“试验场”,杭州市政务云已经选用鲲鹏作为算力底座,基于鲲鹏技术架构的解决方案和应用在政府服务场景中得到广泛应用。
总得看来,仅有高高在上的技术而无法产生实际价值的大数据玩法已经行不通,鲲鹏大数据解决方案跨越技术与应用的鸿沟,已经在众多行业、场景和企业中实现落地。
电信行业三巨头中,中国移动已实现鲲鹏大数据解决方案规模商用,中国电信则基于鲲鹏打造了天翼云,中国联通则基于鲲鹏构建了天宫IT系统;政务方面,北京、广东、江苏、浙江、广西等政务云都出现鲲鹏身影,当下其已经成为首选技术路线;在金融行业,鲲鹏正在帮助银行系统加速完成国产化。
可以说,鲲鹏大数据解决方案有力推动了中国数字经济发展,尤其是信息技术应用创新的落地。
领先优势下, 鲲鹏三个角度出发为大数据技术落地“铺路”
1、走得更稳——回应数字时代重要的安全关切
因此,鲲鹏大数据解决方案在安全方面一直加大投入,最典型的,是在底层硬件而非软件层面进行安全保障——鲲鹏920处理器内置硬件加速器、业界首创支持国密算法加速,这种CPU内置加速模块的做法,被称作“内生安全”,配合国密算法在技术上更为安全。
而与通常的大数据解决方案为了保证安全不得不让渡较多的性能随时监控系统运行不同,华为鲲鹏大数据解决方案内生安全的做法,做到了加密对业务性能的损耗低于5%——既解决安全痛点问题,也解决“为了安全需要”本身导致的痛点问题。
2、走得更顺——用兼容性保护既有数据软硬件投资
前文提到政务云大数据解决方案中,与现有的服务器的混合部署,这其中有一个十分重要的兼容性做法——由于鲲鹏大数据解决方案建立在鲲鹏处理器基础之上,而很多政企组织原有的软硬件投资都基于X86架构,所以鲲鹏要让技术的应用落地走得更顺,还需要在技术上完成对X86在部署层面的兼容,这样还能保护政企客户现有的数字化投资。
可以看到,当下的鲲鹏方案已经支持大数据组件TaiShan服务器与其他架构服务器混合部署。
以江苏电信为例,去年7月,其宣布成功上线全球首个基于鲲鹏处理器的运营商大数据平台。作为核心的业务系统,该大数据平台基于鲲鹏处理器的华为TaiShan服务器和开源Hadoop软件构建,承载着江苏电信所有生产系统的运行数据、存储及分析:
在项目进行过程中,双方携手完成基于鲲鹏处理器的开源Hadoop源代码编译,让关键的大数据业务组件在华为TaiShan服务器上的成功部署和运行,在原有集群上实现了传统架构服务器和TaiShan服务器融合部署。
这种兼容的做法,有效结合了江苏电信大数据业务特点和未来演进趋势,且充分发挥鲲鹏处理器的性能,提高了数据存储、计算等资源的使用效率。
3、走得更宽——生态开放才能让大数据拥有内生动力
鲲鹏生态的主要推动者华为一直强调的理念是“硬件开放、软件开源、使能合作伙伴”,在大数据解决方案中,这种理念同样得到了应用。
例如,在鲲鹏全栈方案中,顶层大数据平台就支持华为自研的FusionInsight大数据平台以及开源Apache、开源HDP/CDH、星环大数据平台,可以有效对接各类场景需要。今年8月,星环 科技 就发布了基于鲲鹏的大数据平台软硬件联合解决方案,由星环 科技 的TDH大数据平台提供软件层面优异的功能,由鲲鹏芯片提供硬件层面强大的性能,拥有极致性能、平滑迁移、丰富的场景支持以及快速部署多重优势,为行业创造价值。
此外,鲲鹏主导的数据虚拟化引擎openLooKeng开源,就支持跨数据格式、跨数据源、跨数据中心的海量分析,最终帮助方案的性能大幅度提升,典型的如北明数据资产管理平台V4.0就基于openLooKeng技术,解决了数据资产管理数据冗杂、标准不一、难以管理等痛点问题,为企业守护和挖掘数据的价值。
开放的生态,将帮助更多合作伙伴发展服务器和PC等计算产品,帮助构建高质量的基础软件生态,也让更多生态伙伴获得端、边、云的全场景开发能力,最终促进鲲鹏计算生态的繁荣,也加速大数据行业应用创新。
打好基础、做好标杆, 鲲鹏进入“强者恒强”周期
弥合技术与应用落地的鸿沟后,鲲鹏大数据解决方案拥有越来越多的政企实践,它们中大多数都是行业典型客户,本身既是大数据发展过程中的优质案例。
拥有这些客户资源的鲲鹏,实际上已经进入了强者恒强的发展周期,这不仅仅是因为它获得了诸多标杆合作案例、领先于行业,更重要的还在于,技术到应用实践的通路打通后,实践也将不断反馈技术,不断帮助鲲鹏锤炼自身的技术能力,从而形成有效的正反馈循环。
一旦这种循环形成,大数据解决方案就会进入“飞轮”式发展进程,越转越快、越难以停下,也很难以被后进者追赶,逐步成为政企客户最有竞争优势的选择。
更进一步来看,大数据服务从来都不是孤立存在的,在计算需求多样化的时代,鲲鹏计算产业生态的主要推动者华为在物联网、5G、AI等方面的能力和生态布局,无疑将帮助鲲鹏大数据解决方案有更多横向技术连接和融合的想象空间,满足更多政企客户潜在的创新业务需求。
总而言之,在以鲲鹏大数据解决方案为代表的优质案例引领下,数据与计算的时代正在加速到来,最终,“新算力”将推动“新基建”全面落地,带来“新经济”动能,更多政企客户将享受到技术带来的价值红利。
*本文图片均来源于网络
【完】
曾响铃
1钛媒体、品途、人人都是产品经理等多家创投、 科技 网站年度十大作者;
2虎啸奖评委;
3作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;
4《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;
5钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;
6“脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;
7腾讯全媒派荣誉导师、多家 科技 智能公司传播顾问。
Ⅲ 基于CentOS7.8安装Ambari2.7+HDP3.1大数据平台
我这里创建了一个普通用户名为admin,并且具有sudo权限,4个节点都需要有这个用户。
4个节点的配置保持同步
4个节点都要操作
注意:生产环境一般由专业运维人员来限制相关端口,而不是完全禁用防火墙
4个节点都要操作
先临时修改,后永久修改的好处:
如果只是临时修改,那么重启机器之后设置就会失效;如果只是永久修改,那么必须重启机器才可能让设置生效,产线环境是不可能重启机器的;这样先临时修改,让其生效,让永久修改,那么在下一次服务器重启后也不会担心这个配置失效。
4个节点都要操作
4个节点都要操作
注意:修改之后,重启服务器生效
4个节点都要操作
设置hdp01机器远程连接自身以及远程连接其他3个机器免秘钥
在4个节点都安装最新稳定版JDK1.8,关于JDK的安装就不再赘述了
3.1小节的操作在hdp01节点进行
3.2小节的操作在hdp01节点进行
如果能看到如下界面Apache就安装好了
HDP安装包部署到Apache:
最终,4个安装包都可以在页面访问,其URL分别为:
配置本地yum源:
这样,本地yum源就创建好了。
3.3小节的操作在hdp01节点进行
访问WEB-UI:
如果能看到上面的页面,那么Ambari-Server就安装成功了!
接着要把滚动条往下拉,把无用的其他操作系统的仓库删掉:
最终我们只保留"readhat7"的仓库,接下来要把直接部署yum本地仓库的地址填进去,同时不要勾选下面的两个高级选项,如下图:
后续一些重复的图片就不再贴出来了。
Ⅳ 为什么安装HDP显示时间或网络
安装HDP显示时间或网络是因为网速不稳定。导致某些jar包不完整,个人推荐用FlashFXP,解压本地下载好的targz,将相应的jar包重新上传,某些服务安装不成功,先重试下还不行重新安装服务即可。
安装HDP的特点
HDP全称叫做HortonworksDataPlatform,Hortonworks数据平台是一款基于ApacheHadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务,该平台是专门用来应对多来源和多格式的数据,并使其处理起来能变成简单更有成本效益。
HDP还提供了一个开放,稳定和高度可扩展的平台,使得更容易地集成ApacheHadoop的数据流业务与现有的数据架构,集群服务器配置,包括安装操作系统关闭防火墙同步服务器时钟等,安装Ambari管理器。
Ⅳ 大数据Hadoop生态系统介绍
官方地址: https://hadoop.apache.org
Github地址: https://github.com/dkhadoop/dk-fitting
官方地址: https://www.cloudera.com/procts/open-source/apache-hadoop.html
官方地址: https://www.cloudera.com/procts/hdp.html
License
支持的最低Java版本
容错
数据平衡
存储Scheme
存储开销
存储开销示例
YARN时间线服务
默认端口范围
兼容的文件系统
Datanode资源
MR API兼容性
支持Microsoft Windows
插槽/容器
单点故障
HDFS联盟
可扩展性
访问数据
HDFS快照
平台
群集资源管理
这里只是列举了一部分Hadoop生态里的组件,稍微介绍了一下,上面提到的目前企业里最常见的组件的原理介绍,安装部署,以及企业级使用会在后续分享出来,请耐心等待……
Ⅵ 查找某个HDP版本对应的大数据组件版本
首先进到hdp的文档界面:
https://docs.cloudera.com/
往下翻页,找到 HDP Enterprise,并点击进去
来到这个界面:
选择对应的HDP版本点进去,我这里选3.1.0
然后点击release notes:
再点击component versions,即可查看
Ⅶ 大数据分析技术生态圈一览
大数据分析技术生态圈一览
大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。
这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。
Platfora
这是一款大数据发现和分析平台。
Qlikview
这是一款引导分析平台。
Sisense
这是一款商业智能软件,专门处理复杂数据的商业智能解决方案。
Sqream
这是一款快速、可扩展的大数据分析SQL数据库。
Splunk
这是一款运维智能平台。
Sumologic
这是一项安全的、专门定制的、基于云的机器数据分析服务。
Actian
这是一款大数据分析平台。
亚马逊Redshift
这是一项PB级云端数据仓库服务。
CitusData
可扩展PostgreSQL。
Exasol
这是一种用于分析数据的大规模并行处理(MPP)内存数据库。
惠普Vertica
这是一款SQL on Hadoop大数据分析平台。
Mammothdb
这是一款与SQL兼容的MPP分析数据库。
微软SQL Server
这是一款关系数据库管理系统。
甲骨文Exadata
这是一款计算和存储综合系统,针对甲骨文数据库软件进行了优化。
SAP HANA
这是一款内存计算平台。
Snowflake
这是一款云数据仓库。
Teradata
这是企业级大数据分析和服务。
数据探查
Apache Drill
这是一款无数据库模式的SQL查询引擎,面向Hadoop、NoSQL和云存储。
Cloudera Impala
这是一款开源大规模并行处理SQL查询引擎。
谷歌BigQuery
这是一项全面托管的NoOps数据分析服务。
Presto
这是一款面向大数据的分布式SQL查询引擎。
Spark
这是一款用于处理大数据的快速通用引擎。
平台/基础设施
亚马逊网络服务(AWS)
提供云计算服务
思科云
提供基础设施即服务
Heroku
为云端应用程序提供平台即服务
Infochimps
提供云服务的大数据解决方案
微软Azure
这是一款企业级云计算平台。
Rackspace
托管专业服务和云计算服务
Softlayer(IBM)
提供云基础设施即服务
数据基础设施
Cask
这是一款面向Hadoop解决方案的开源应用程序平台。
Cloudera
提供基于Hadoop的软件、支持和服务。
Hortonworks
管理HDP――这是一款开源企业Apache Hadoop数据平台。
MAPR
这是面向大数据部署环境的Apache Hadoop技术。
垂直领域应用/数据挖掘
Alpine Data Labs
这是一种高级分析平台,可处理Apache Hadoop和大数据。
R
这是一种免费软件环境,可处理统计计算和图形。
Rapidminer
这是一款开源预测分析平台
SAS
这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。
提取、转换和加载(ETL)
IBM Datastage
使用一种高性能并行框架,整合多个系统上的数据。
Informatica
这是一款企业数据整合和管理软件。
Kettle-Pentaho Data Integration
提供了强大的提取、转换和加载(ETL)功能。
微软SSIS
这是一款用于构建企业级数据整合和数据转换解决方案的平台。
甲骨文Data Integrator
这是一款全面的数据整合平台。
SAP
NetWeaver为整合来自各个数据源的数据提供了灵活方式。
Talend
提供了开源整合软件产品
Cassandra
这是键值数据库和列式数据库的混合解决方案。
CouchBase
这是一款开源分布式NoSQL文档型数据库。
Databricks
这是使用Spark的基于云的大数据处理解决方案。
Datastax
为企业版的Cassandra数据库提供商业支持。
IBM DB2
这是一款可扩展的企业数据库服务器软件。
MemSQL
这是一款分布式内存数据库。
MongoDB
这是一款跨平台的文档型数据库。
MySQL
这是一款流行的开源数据库。
甲骨文
这是一款企业数据库软件套件。
PostgresSQL
这是一款对象关系数据库管理系统。
Riak
这是一款分布式NoSQL数据库。
Splice Machine
这是一款Hadoop关系数据库管理系统。
VoltDB
这是一款内存NewSQL数据库。
Actuate
这是一款嵌入式分析和报表解决方案。
BiBoard
这是一款交互式商业智能仪表板和可视化工具。
Chart.IO
这是面向数据库的企业级分析工具。
IBM Cognos
这是一款商业智能和绩效管理软件。
D3.JS
这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。
Highcharts
这是面向互联网的交互式JavaScirpt图表。
Logi Analytics
这是自助服务式、基于Web的商业智能和分析应用软件。
微软Power BI
这是交互式数据探查、可视化和演示工具。
Microstrategy
这是一款企业商业智能和分析软件。
甲骨文Hyperion
这是企业绩效管理和商业智能系统。
Pentaho
这是大数据整合和分析解决方案。
SAP Business Objects
这是商业智能解决方案。
Tableau
这是专注于商业智能的交互式数据可视化产品系列。
Tibco Jaspersoft
这是商业智能套件。
Ⅷ 大数据有哪些常用的平台
大数据平台:是指以处理海量数据存储、计算和不间断流数据实时计算等场景为主的一套基础设施。
典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。
Ⅸ 国内有没有专业做大数据平台运维的公司
有的,国内还是有很多的
Ⅹ 如何查看hadoop版本
通过在集群上执行:hadoop version 命令可以查看对应的hadoop的版本。
查看hadoop集群的位数:
执行:cd $HADOOP_HOME/lib/native
file libhadoop.so.1.0.0
Hadoop属于一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop的发行版除了有Apache hadoop外cloudera,hortonworks,mapR,DKhadoop等都提供了自己的商业版本。
商业发行版主要是提供了更为专业的技术支持,这对于大型企业更为重要,不同发行版都有自己的一些特点。
(10)hdp大数据平台扩展阅读:
对比版选择:DKhadoop发行版、cloudera发行版、hortonworks发行版。
1、DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。
因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。
2、Cloudera发行版:CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。
3、€Hortonworks发行版:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品。
其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具。