A. 大数据平台的软件有哪些
这个要分好几块来讲,首先我要说明的是大数据项目也是要有很多依赖的模块的。每个模块的软件不一样,下面分别聊一下。
一、大数据处理
这个是所谓大数据项目中最先想到的模块。主要有spark,hadoop,es,kafka,hbase,hive等。
当然像是flume,sqoop也都很常用。
这些软件主要是为了解决海量数据处理的问题。软件很多,我只列几个经典的,具体可以自行网络。
二、机器学习相关
大部分大数据项目都和机器学习相关。因此会考虑到机器学习的一些软件,比如说sklearn,spark的ml,当然还有自己实现的代码。
三、web相关技术
大部分项目也都跑不了一个web的展示,因此web就很重要的,java的ssh,python的django都可以,这个看具体的项目组习惯了。
四、其它
还有一些很常用的东西,个人感觉不完全算是大数据特定使用范橘埋高围。反正我在做大数据项目的时候也都用到了。
比如说数据存储:redis,mysql。
数据可视化:echart,d3js。
图数据库:neo4j。
再来说说大数据平台的软件或者工具:
1、数据库,大数据平台类,星环,做Hadoop生态系列的大数据平台圆尺公司。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及液键数据库工具。
2、大数据存储硬件类,浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储,在国内比较领先。
3、云计算,云端大数据类,阿里巴巴,明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云。实力不差,符合阿里巴巴的气质,很有野心。
4、数据应用方面这个有很多,比如帆软旗下的FineReport报表系统和FineBI大数据分析平台等。
帆软是商业智能和数据分析平台提供商,从报表工具到商业智能,有十多年的数据应用的底子,在这个领域很成熟,目前处于快速成长期,但是很低调,是一家有技术有实力而且对客户很真诚的公司。
B. 两台服务器手动部署大数据平台
两台服务器手动部署大数据平台
##### 初始服务器数量
- 2台centos7
##### 建议配置
- 32G(RAM)
- 24cpu
- 10t(SATA)
### 1.环境
- 系统centos7
- jdk:1.8.0_171(64位)
- zookeeper:3.4.8
- spark-2.1.0-bin-hadoop2.6
- kafka_2.10-0.10.2.1
- hadoop-2.7.0
- hbase-1.2.6
- elasticsearch-6.3.0
### 2.系统准备
对应的安装包文件:
elasticsearch-6.3.0.tar.gz
hadoop-2.7.0.tar.gz
hbase-1.2.6-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
kafka_2.10-0.10.2.1.tgz
mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar
spark2.1.0hadoop2.6.tgz.gz
zookeeper-3.4.8.tar.gz
一、 配置好hosts
```
两台设备的host
ip1 hello1
ip2 hello2
关闭防火墙
systemctl stop firewalld
systemctl disable firewalld
二、机器之间做好免密
1. 在hello1服务器中,cd /root/
2. ssh-keygen -trsa (全部按回车,走默认配置)
3. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
4. chmod 600 ~/.ssh/authorized_keys
5. scp ~/.ssh/authorized_keys root@hello2:~/.ssh/
到此处时可以实现hello1机器上通过root账户登录到hello2中,但从hello2中无法通过免密码登录到hello1服务器。
6. 在hello2服务器中,cd /root/
7. ssh-keygen -trsa (全部按回车,走默认配置)
8. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
9. scp ~/.ssh/authorized_keys root@hello1:~/.ssh/
到此处时可以实现hello1机器与hello2机器之间免密码互通
三、建立一个用户操作elasticsearch用户,后期所有安装软件放在该目录下(当前使用root账户安装)
1.添加用户:
useradd -m -s /bin/bash es
2.为该用户设置密码:
password es
四、安装JDK
如果系统自带openjdk,先将其卸载掉!
1.创建jdk安装路径(hello1、hello2都执行)
执行: mkdir /usr/java
2.解压缩jdk到安装目录
执行: tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/
3.添加环境变量
vi /etc/profile,添加以下语句
export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
执行:source /etc/profile
4.复制安装包和数据目录到hello2
scp -r /usr/java/jdk1.8.0_171 hello2:/usr/java/
scp /etc/profile hello2:/etc/
登录到hello2上,进入/home/es目录
执行: source /etc/profile
5、验证:
两台服务器上分别执行: java -version,查看输出的版本是否与安装的版本一致。
五、安装mysql
1.如果centos系统中自带mariadb,先卸载mariadb。
2.解压mysql安装包程序
执行:tar -xvf mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar
3.依次安装里面rpm包组建
rpm -ivh mysql-community-common-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-client-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-server-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-devel-5.7.23-1.el7.x86_64.rpm
4.启动MySQL
执行: systemctl start mysqld
5.登录mysql服务器
这种方式安装好后,会再my.cnf文件中自动生成一个密码,
执行:cat /var/log/mysqld.log | grep password, 出现如下记录:
2017-09-15T01:58:11.863301Z 1 [Note] A temporary password is generated for root@localhost: m-NdrSG4ipuO
其中“m-NdrSG4ipuO”为mysql root账户的初始密码。
登录:
执行: mysql -uroot -p
输入密码: m-NdrSG4ipuO,即可进入mysql服务器。
后续可自行修改root密码,创建新账户等操作。
六、安装zookeeper
1.解压zookeeper安装包到指定目录(/home/es)
tar -zxvf zookeeper-3.4.8.tar.gz -C /home/es
2.创建程序软连接
cd /home/es/
ln -s zookeeper-3.4.8 zookeeper
3.添加执行路径环境
vi /etc/profile
添加
export ZOOKEEPER_HOME=/home/es/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin
执行
source /etc/profile
4.修改配置文件
cd /home/es/zookeeper
cp conf/zoo_sample.cfg conf/zoo.cfg
在/home/data下创建对应的zookeeper数据存储目录
mkdir /home/data/zookeeper
mkdir /home/data/zookeeper/data
mkdir /home/data/zookeeper/log
修改配置文件:conf/zoo.cfg,添加以下语句
dataDir=/home/data/zookeeper/data
dataLogDir=/home/data/zookeeper/log
server.1=hello1:2888:3888
server.2=hello2:2888:3888
5.创建server表示符文件
touch /home/data/zookeeper/data/myid
echo echo 1>/home/data/zookeeper/data/myid
6.复制安装包和数据目录到hello2
scp -r /home/es/zookeeper-3.4.8 es@hello2:/home/es
scp -r /home/data/zookeeper es@hello2:/home/data
scp /etc/profile es@hello2:/etc
登录到hello2上
cd /home/es
ln -s zookeeper-3.4.8 zookeeper
echo echo 2>/home/data/zookeeper/data/myid
执行
source /etc/profile
7.两台机器上分别执行
zkServer.sh start
8.验证
jps | grep QuorumPeerMain,查看是否有该进程
zkServer.sh status,查看服务状态
六、安装kafka
1.解压kafka安装包到指定目录(/home/es)
tar -zxvf kafka_2.10-0.10.2.1.tgz -C /home/es
2.创建程序软连接
cd /home/es/
ln -s kafka_2.10-0.10.2.1 kafka
3.修改配置文件
备份:
cp config/server.properties config/server.properties.bak
创建kafka日志目录:
mkdir /home/data/kafka
mkdir /home/data/kafka/kafka-logs
修改:config/server.properties,具体对应字段如下:
broker.id=0
delete.topic.enable=true
num.network.threads=10
num.io.threads=32
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/home/data/kafka/kafka-logs
num.partitions=1
num.recovery.threads.per.data.dir=1
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=hello1:2181,hello2:2181
zookeeper.connection.timeout.ms=6000
6.复制安装包和数据目录到hello2
scp -r /home/es/kafka_2.10-0.10.2.1 es@hello2:/home/es
scp -r /home/data/kafka es@hello2:/home/data
修改hello2中的配置
登录到hello2上,cd /home/es/kafka,修改config/server.properties中broker.id值为2.
7.启动kafka
在两台机器的/home/es/kafka中,创建一个日志存放目录:mkdir start_log,执行以下命令:
nohup bin/kafka-server-start.sh config/server.properties > start_log/kafka_start_log 2>&1 &
8.验证运行情况
jps | grep Kafka,查看进程
通过kafka命令查看topic。
七、安装hadoop
1.解压hadoop安装包到指定目录(/home/es)
tar -zxvf hadoop-2.7.0.tar.gz -C /home/es
2.创建程序软连接
cd /home/es/
ln -s hadoop-2.7.0 hadoop
3.创建数据存放目录
mkdir /home/data/hadoop
mkdir /home/data/hadoop/tmp
mkdir /home/data/hadoop/dfs
mkdir /home/data/hadoop/dfs/data
mkdir /home/data/hadoop/dfs/name
4.修改配置文件
修改/home/es/hadoop/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hello1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/data/hadoop/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
</configuration>
修改/home/es/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/data/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/data/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hello1:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
修改/home/es/hadoop/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>maprece.jobhistory.address</name>
<value>hello1:10020</value>
</property>
<property>
<name>maprece.jobhistory.webapp.address</name>
<value>hello1:19888</value>
</property>
</configuration>
修改/home/es/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.maprece.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hello1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheler.address</name>
<value>hello1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hello1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hello1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hello1:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>768</value>
</property>
</configuration>
配置/home/es/hadoop/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME(不设置的话,启动不了)
export JAVA_HOME=/usr/java/jdk1.8.0_171
配置/home/es/hadoop/etc/hadoop目录下的slaves,删除默认的localhost,增加2个从节点,
hello1
hello2
5、将配置好的Hadoop复制到各个节点对应位置上,通过scp传送
scp -r /home/es/hadoop-2.7.0 hello2:/home/es/
scp -r /home/data/hadoop hello2:/home/data/
登录到hello2上,进入/home/es目录
执行: ln -s hadoop-2.7.0 hadoop
6、格式化nameNode及启动hadoop
在主服务器启动hadoop,从节点会自动启动,进入/home/es/hadoop目录
初始化,输入命令,bin/hdfs namenode -format
全部启动sbin/start-all.sh,也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh
输入命令,jps,可以看到相关信息
7、验证hadoop运行情况
浏览器打开http://hello1:8088/
浏览器打开http://hello1:50070/
8、添加hadoop环境变量到/etc/profile
export HADOOP_HOME=/home/es/hadoop export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
执行: source /etc/profile
八、安装Hbase
1.解压hbase安装包到指定目录(/home/es)
tar -zxvf hbase-1.2.6-bin.tar.gz -C /home/es
2.创建程序软连接
cd /home/es/
ln -s hbase-1.2.6 hbase
3.添加hbase环境变量到/etc/profile
export HBASE_HOME=/home/es/hbase
export PATH=$HBASE_HOME/bin:$PATH
执行:source /etc/profile
4.修改HBASE配置文件
vi /home/es/hbase/conf/hbase-env.sh
增加: export JAVA_HOME=/usr/java/jdk1.8.0_171
修改: export HBASE_MANAGES_ZK=false
vi /home/es/hbase/conf/hbase-site.xml
修改类容:
<configuration>
<property>
<name>hbase.rootdir</name> <!-- hbase存放数据目录 -->
<value>hdfs://hello1:9000/hbase/hbase_db</value>
<!-- 端口要和Hadoop的fs.defaultFS端口一致-->
</property>
<property>
<name>hbase.cluster.distributed</name> <!-- 是否分布式部署 -->
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name> <!-- list of zookooper -->
<value>hello1,hello2</value>
</property>
<property><!--zookooper配置、日志等的存储位置 -->
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/es/hbase/zookeeper</value>
</property>
</configuration>
配置regionservers,vi /home/es/hbase/conf/regionservers
去掉默认的localhost,加入hello1、hello2
5、将配置好的hbase复制到各个节点对应位置上,通过scp传送
scp -r /home/es/hbase-1.2.6 hello2:/home/es/
scp /etc/profile hello2:/etc/
登录到hello2上,进入/home/es目录
执行: ln -s hbase-1.2.6 hbase
source /etc/profile
6、hbase的启动
hello1中执行: start-hbase.sh
7、验证hbase运行情况
输入jps命令查看进程是否启动成功,若 hello1上出现HMaster、HRegionServer、HQuormPeer,hello2上出现HRegionServer、HQuorumPeer,就是启动成功了。
输入hbase shell 命令 进入hbase命令模式,输入status命令,查看运行状态。
在浏览器中输入http://hello1:16010就可以在界面上看到hbase的配置
注意事项:
正常安装后,创建普通不带压缩表可以正常读写,当使用snappy进行压缩创建表时,该表无法再regionServer中启动!
解决方法:
1.在hbase-site.xml文件中添加一下属性
<property>
<name>hbase.regionserver.codecs</name>
<value>snappy</value>
</property>
2.每台机器中将hadoop_native.zip解压缩到hbase安装目录的lib下,执行 unzip hadoop_native.zip $HBASE_HOME/lib/
3.在$HBASE_HOME/conf/hbase-env.sh 中添加:export HBASE_LIBRARY_PATH=/home/es/hbase/lib/native
4.重启Hbase服务即可
九、Spark安装
1.解压hbase安装包到指定目录(/home/es)
tar -zxvf spark2.1.0hadoop2.6.tgz.gz -C /home/es
2.创建程序软连接
cd /home/es/
ln -s spark2.1.0hadoop2.6 spark
3.修改配置文件
mv /home/es/spark/conf/spark-env.sh.template /home/es/spark/conf/spark-env.sh
vi /home/es/spark/conf/spark-env.sh
修改对应配置:
export JAVA_HOME=/usr/java/jdk1.8.0_171
export SPARK_MASTER_IP=hello1
export SPARK_MASTER_PORT=7077
export SPARK_LOCAL_IP=hello1
修改slaves文件
mv /home/es/spark/conf/slaves.template /home/es/spark/conf/slaves
vi /home/es/spark/conf/slaves
将localhost修改成:
hello1
hello2
5、将配置好的hbase复制到各个节点对应位置上,通过scp传送
scp -r /home/es/spark2.1.0hadoop2.6 hello2:/home/es/
登录到hello2上,进入/home/es目录
执行: ln -s spark2.1.0hadoop2.6 spark
在hello2中修改/home/es/spark/conf/spark-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_171
export SPARK_MASTER_IP=hello1
export SPARK_MASTER_PORT=7077
export SPARK_LOCAL_IP=hello2
6、启动spark
cd /home/es/spark
执行: sbin/start-all.sh
7、检测执行结果
jps | grep Worker,看是否有相应的进程。
十、安装elasticsearch
由于elasticsearch,用root账户无法启动,故该组件用es账户安装
1、切换到es账户: su es
2、解压hbase安装包到指定目录(/home/es)
tar -zxvf elasticsearch-6.3.0.tar.gz -C /home/es/
创建程序软连接
cd /home/es/
ln -s elasticsearch-6.3.0 elasticsearch
3、修改配置文件
vi /home/es/elasticsearch/config/elasticsearch.yml
# 集群的名字
cluster.name: crrc-health
# 节点名字
node.name: node-1
# 数据存储目录(多个路径用逗号分隔)
path.data: /home/data1/elasticsearch/data
# 日志目录
path.logs: /home/data1/elasticsearch/logs
#本机的ip地址
network.host: hello1
#设置集群中master节点的初始列表,可以通过这些节点来自动发现新加入集群的节点
discovery.zen.ping.unicast.hosts: ["hello1", "hello2"]
# 设置节点间交互的tcp端口(集群),(默认9300)
transport.tcp.port: 9300
# 监听端口(默认)
http.port: 9200
# 增加参数,使head插件可以访问es
http.cors.enabled: true
http.cors.allow-origin: "*"
4、创建elasticsearch数据和存储目录
mkdir /home/data1/elasticsearch
mkdir /home/data1/elasticsearch/data
mkdir /home/data1/elasticsearch/logs
5、修改linux系统的默认硬限制参数
切换至root用户: su root
vim /etc/security/limits.conf
添加:
es soft nofile 65536
es hard nofile 65536
退出es登录,重新用es账户登录,使用命令:ulimit -Hn查看硬限制参数。
vi /etc/sysctl.conf
添加:
vm.max_map_count=655360
执行:
sysctl -p
6、将配置好的elasticsearch复制到各个节点对应位置上,通过scp传送
scp -r /home/es/elasticsearch-6.3.0 hello2:/home/es/
scp -r /home/data1/elasticsearch hello2:/home/data1/
登录到hello2上,进入/home/es目录
执行: ln -s elasticsearch-6.3.0 elasticsearch-6.3.0
在hello2中修改/home/es/elasticsearch/config/elasticsearch.yml
修改: network.host: hello2
7、启动elasticsearch
使用es账户
执行:
/home/es/elasticsearch/bin/elasticsearch -d
8、验证
控制台中输入:curl http://hello1:9200
C. 从业大数据方向,需要掌握哪些技能,具体学习路线是什么
你好,大数据学习路线有8个阶段的内容,你可以按照顺序学习,祝你早日学有所成!
大数据学习路线
D. 本人想自学大数据hadoop,有那种讲得比较全面详细的大数据视频教程资源吗
现在大数据人才的缺口很大,但是从事大数据开发是需要一定的数据库基础和编程基础回的,而且大数据答的教学视频或者书籍目前来说适合入门的非常少,课程也非常繁杂。自学的难度不小,如果你的逻辑思维能力足够好的话可以先看尚硅 谷的谷粒学院大数据Hadoop教程。
E. 大数据都需要学习什么
大数据专业是一项技术的学习方向,该专业是交叉性学科,学习内容涵盖较广,其中以统计学、数学、计算机为三大支撑柱学科,并以生物、医学、环境科学、经济学、管理学等作为辅助拓展。除此之外还需要学习数据采集、数据分析、数据处理软件及计算机编程语言等。不同的工作岗位与方向,需要从事的工作也不是一样的,因此催生出了许多职位。较为常见的大数据发展方向是大数据开发、大数据分析。
回过头来我们看看学习大数据需要的基础
1、java SE、EE(SSM)
90%的大数据框架都是Java写的
2、MySQL
SQL on Hadoop
3、Linux
大数据的框架安装在Linux操作系统上
- 需要学什么
大数据离线分析
一般处理T+1数据(T:可能是1天、一周、一个月、一年)
a、Hadoop :一般不选用最新版本,踩坑难解决
(common、HDES、MapRece、YARN)
环境搭建、处理数据的思想
b、Hive:大数据的数据仓库
通过写SQL对数据进行操作,类似于MySQL数据库的sql
c、HBase:基于HDFS的NOSQL数据库
面向列存储
d、协作框架:
sqoop(桥梁:HDFS《==》RDBMS)
flume:搜集日志文件中的信息
e、调度框架
anzkaban
了解:crotab(Linux自带)
zeus(Alibaba)
Oozie(cloudera)
f、前沿框架扩展:
kylin、impala、ElasticSearch(ES)
大数据实时分析
以spark框架为主
Scala:OOP(面向对象程序设计)+FP(函数是程序设计)
sparkCore:类比MapRece
sparkSQL:类比hive
sparkStreaming:实时数据处理
kafka:消息队列
前沿框架扩展:flink
阿里巴巴:blink
大数据机器学习
spark MLlib:机器学习库
pyspark编程:Python和spark的结合
推荐系统
python数据分析
python机器学习
F. 入门大数据需要学习什么内容
作为一名零基础学习者,请不要将大数据开发看做一门与Java、python等相似的IT语言,大数据更像是一门技术,其所包含的内容相对比较多。在正式开始学习之前,可以买一些大数据相关书籍或者找一些网上的学习资料,先建立对行业以及对大数据相关职位的了解。
比如,大数据分为哪些发展方向,不同的发展方向对应哪些发展职位,各个职位的发展所要求的核心技能点是什么,企业对于大数据人才的需求是什么样的,了解清楚了这些,才能真正考虑清楚,学什么怎么学。
以大数据开发来说,其中涉及到的主要是大数据应用开发,要求一定的编程能力,在学习阶段,主要需要学习掌握大数据技术框架,包括hadoop、hive、oozie、flume、hbase、kafka、scala、spark等等……
以大数据分析来说,有主攻业务运营方面的数据分析师,也有主攻机器学习、深度学习等的数据挖掘师,具体到其中的各个职位,更是有着更加具体的技能要求,那么在学习阶段就要先做好相关的准备了。
关于入门大数据需要学习什么内容,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
G. 大数据架构师岗位的主要职责概述
职责:
1、负责大数据平台及BI系统框架设计、规划、技术选型,架构设计并完成系统基础服务的开发;
2、负责海量埋点规则、SDK标准化、埋点数据采集、处理及存储,业务数据分布存储、流式/实时计算等应用层架构搭建及核心代码实现;
3、开发大数据平台的核心代码,项目敏捷开发流程管理,完成系统调试、集成与实施,对每个项目周期技术难题的解决,保证大数据产品的上线运行;
4、负责大数据平台的架构优化,代码评审,并根据业务需求持续优化数据架构,保证产品的可靠性、稳定性;
5、指导开发人员完成数据模型规划建设,分析模型构建及分析呈现,分享技术经验;
6、有效制定各种突发性研发技术故障的应对预案,有清晰的隐患意识;
7、深入研究大数据相关技术和产品,跟进业界先进技术;
任职要求
1、统计学、应用数学或计算机相关专业大学本科以上学历;
2、熟悉互联网移动端埋点方法(点击和浏览等行为埋点),无埋点方案等,有埋点SDK独立开发经验者优选;
3、熟悉Hadoop,MR/MapRece,Hdfs,Hbase,Redis,Storm,Python,zookeeper,kafka,flinkHadoop,hive,mahout,flume,ElasticSearch,KafkaPython等,具备实际项目设计及开发经验;
4、熟悉数据采集、数据清洗、分析和建模工作相关技术细节及流程
5、熟悉Liunx/Unix操作系统,能熟练使用shell/perl等脚本语言,熟练掌握java/python/go/C++中一种或多种编程语言
6、具备一定的算法能力,了解机器学习/深度学习算法工具使用,有主流大数据计算组件开发和使用经验者优先
7、熟悉大数据可视化工具Tableau/echarts
8、具有较强的执行力,高度的责任感、很强的学习、沟通能力,能够在高压下高效工作;
职责:
根据大数据业务需求,设计大数据方案及架构,实现相关功能;
搭建和维护大数据集群,保证集群规模持续、稳定、高效平稳运行;
负责大数据业务的设计和指导具体开发工作;
负责公司产品研发过程中的数据及存储设计;
针对数据分析工作,能够完成和指导负责业务数据建模。
职位要求:
计算机、自动化或相关专业(如统计学、数学)本科以上学历,3年以上大数据处理相关工作经验;
精通大数据主流框架(如Hadoop、hive、Spark等);
熟悉MySQL、NoSQL(MongoDB、Redis)等主流数据库,以及rabbit MQ等队列技术;
熟悉hadoop/spark生态的原理、特性且有实战开发经验;
熟悉常用的数据挖掘算法优先。
职责:
1、大数据平台架构规划与设计;
2、负责大数据平台技术框架的选型与技术难点攻关;
3、能够独立进行行业大数据应用的整体技术框架、业务框架和系统架构设计和调优等工作,根据系统的业务需求,能够指导开发团队完成实施工作;
4、负责数据基础架构和数据处理体系的升级和优化,不断提升系统的稳定性和效率,为相关的业务提供大数据底层平台的支持和保证;
5、培养和建立大数据团队,对团队进行技术指导。
任职要求:
1、计算机相关专业的背景专业一类院校毕业本科、硕士学位,8年(硕士5年)以上工作经验(至少拥有3年以上大数据项目或产品架构经验);
2、精通Java,J2EE相关技术,精通常见开源框架的架构,精通关系数据库系统(Oracle MySQL等)和noSQL数据存储系统的原理和架构;
3、精通SQL和Maprece、Spark处理方法;
4、精通大数据系统架构,熟悉业界数据仓库建模方法及新的建模方法的发展,有DW,BI架构体系的专项建设经验;
5、对大数据体系有深入认识,熟悉Kafka、Hadoop、Hive、HBase、Spark、Storm、greenplum、ES、Redis等大数据技术,并能设计相关数据模型;
6、很强的学习、分析和解决问题能力,可以迅速掌握业务逻辑并转化为技术方案,能独立撰写项目解决方案、项目技术文档;
7、具有较强的内外沟通能力,良好的团队意识和协作精神;
8、机器学习技术、数据挖掘、人工智能经验丰富者优先考虑;
9、具有能源电力行业工作经验者优先。
职责:
1.参与公司数据平台系统规划和架构工作,主导系统的架构设计和项目实施,确保项目质量和关键性能指标达成;
2.统筹和推进制造工厂内部数据系统的构建,搭建不同来源数据之间的逻辑关系,能够为公司运营诊断、运营效率提升提供数据支持;
3.负责数据系统需求对接、各信息化系统数据对接、软件供应商管理工作
5.根据现状制定总体的数据治理方案及数据体系建立,包括数据采集、接入、分类、开发标准和规范,制定全链路数据治理方案;深入挖掘公司数据业务,超强的数据业务感知力,挖掘数据价值,推动数据变现场景的落地,为决策及业务赋能;
6.定义不同的数据应用场景,推动公司的数据可视化工作,提升公司数据分析效率和数据价值转化。
任职要求:
1.本科以上学历,8年以上软件行业从业经验,5年以上大数据架构设计经验,熟悉BI平台、大数据系统相关技术架构及技术标准;
2.熟悉数据仓库、熟悉数据集市,了解数据挖掘、数据抽取、数据清洗、数据建模相关技术;
3.熟悉大数据相关技术:Hadoop、Hive、Hbase、Storm、Flink、Spark、Kafka、RabbitMQ;
4.熟悉制造企业信息化系统及相关数据库技术;
5.具备大数据平台、计算存储平台、可视化开发平台经验,具有制造企业大数据系统项目开发或实施经验优先;
6.对数据敏感,具备优秀的业务需求分析和报告展示能力,具备制造企业数据分析和数据洞察、大数据系统的架构设计能力,了解主流的报表工具或新兴的前端报表工具;
7.有较强的沟通和组织协调能力,具备结果导向思维,有相关项目管理经验优先。
职责:
1.负责产品级业务系统架构(如业务数据对象识别,数据实体、数据属性分析,数据标准、端到端数据流等)的设计与优化。协助推动跨领域重大数据问题的分析、定位、解决方案设计,从架构设计上保障系统高性能、高可用性、高安全性、高时效性、分布式扩展性,并对系统质量负责。
2.负责云数据平台的架构设计和数据处理体系的优化,推动云数据平台建设和持续升级,并制定云数据平台调用约束和规范。
3.结合行业应用的需求负责数据流各环节上的方案选型,主导云数据平台建设,参与核心代码编写、审查;数据的统计逻辑回归算法、实时交互分析;数据可视化方案等等的选型、部署、集成融合等等。
4.对云数据平台的关注业内技术动态,持续推动平台技术架构升级,以满足公司不同阶段的数据需求。
任职要求:
1.熟悉云计算基础平台,包括Linux(Ubuntu/CentOS)和KVM、OpenStack/K8S等基础环境,熟悉控制、计算、存储和网络;
2.掌握大型分布式系统的技术栈,如:CDN、负载均衡、服务化/异步化、分布式缓存、NoSQL、数据库垂直及水平扩容;熟悉大数据应用端到端的相关高性能产品。
3.精通Java,Python,Shell编程语言,精通SQL、NoSQL等数据库增删改查的操作优化;
4.PB级别实战数据平台和生产环境的实施、开发和管理经验;
5.熟悉Docker等容器的编排封装,熟悉微服务的开发和日常调度;
6.计算机、软件、电子信息及通信等相关专业本科以上学历,5年以上软件工程开发经验,2年以上大数据架构师工作经验。
职责描述:
1、负责集团大数据资产库的技术架构、核心设计方案,并推动落地;
2、带领大数据技术团队实现各项数据接入、数据挖掘分析及数据可视化;
3、新技术预研,解决团队技术难题。
任职要求:
1、在技术领域有5年以上相关经验,3年以上的架构设计或产品经理经验;
2、具有2年以上大数据产品和数据分析相关项目经验;
3、精通大数据分布式系统(hadoop、spark、hive等)的架构原理、技术设计;精通linux系统;精通一门主流编程语言,java优先。
岗位职责:
1、基于公司大数据基础和数据资产积累,负责大数据应用整体技术架构的设计、优化,建设大数据能力开放平台;负责大数据应用产品的架构设计、技术把控工作。
2、负责制定大数据应用系统的数据安全管控体系和数据使用规范。
3、作为大数据技术方案到产品实现的技术负责人,负责关键技术点攻坚工作,负责内部技术推广、培训及知识转移工作。
4、负责大数据系统研发项目任务规划、整体进度、风险把控,有效协同团队成员并组织跨团队技术协作,保证项目质量与进度。
5、负责提升产品技术团队的技术影响力,针对新人、普通开发人员进行有效辅导,帮助其快速成长。
任职资格:
1、计算机、数学或相关专业本科以上学历,5—20xx年工作经验,具有大型系统的技术架构应用架构数据架构相关的实践工作经验。
2、有分布式系统分析及架构设计经验,熟悉基于计算集群的软件系统架构和实施经验。
3、掌握Hadoop/Spark/Storm生态圈的主流技术及产品,深入了解Hadoop/Spark/Storm生态圈产品的工作原理及应用场景。
4、掌握Mysql/Oracle等常用关系型数据库,能够对SQL进行优化。
5、熟悉分布式系统基础设施中常用的技术,如缓存(Varnish、Memcache、Redis)、消息中间件(Rabbit MQ、Active MQ、Kafka、NSQ)等;有实践经验者优先。
6、熟悉Linux,Java基础扎实,至少3—5年以上Java应用开发经验,熟悉常用的设计模式和开源框架。
岗位职责:
1、负责公司大数据平台架构的技术选型和技术难点攻关工作;
2、依据行业数据现状和客户需求,完成行业大数据的特定技术方案设计与撰写;
3、负责研究跟进大数据架构领域新兴技术并在公司内部进行分享;
4、参与公司大数据项目的技术交流、解决方案定制以及项目的招投标工作;
5、参与公司大数据项目前期的架构设计工作;
任职要求:
1、计算机及相关专业本科以上,5年以上数据类项目(数据仓库、商务智能)实施经验,至少2年以上大数据架构设计和开发经验,至少主导过一个大数据平台项目架构设计;
2、精通大数据生态圈的技术,包括但不限于MapRece、Spark、Hadoop、Kafka、Mongodb、Redis、Flume、Storm、Hbase、Hive,具备数据统计查询性能优化能力。熟悉星环大数据产品线及有过产品项目实施经验者优先;
3、优秀的方案撰写能力,思路清晰,逻辑思维强,能够根据业务需求设计合理的解决方案;
4、精通ORACLE、DB2、mySql等主流关系型数据库,熟悉数据仓库建设思路和数据分层架构思想;
5。熟练掌握java、R、python等1—2门数据挖掘开发语言;
6。熟悉云服务平台及微服务相关架构思想和技术路线,熟悉阿里云或腾讯云产品者优先;
7、有烟草或制造行业大数据解决方案售前经验者优先;
8、能适应售前支持和项目实施需要的短期出差;
岗位职责:
1、负责相关开源系统/组件的性能、稳定性、可靠性等方面的深度优化;
2、负责解决项目上线后生产环境的各种实际问题,保障大数据平台在生产上的安全、平稳运行;
3、推动优化跨部门的业务流程,参与业务部门的技术方案设计、评审、指导;
4、负责技术团队人员培训、人员成长指导。
5、应项目要求本月办公地址在锦江区金石路316号新希望中鼎国际办公,月底项目结束后在总部公司办公
任职要求:
1、熟悉linux、JVM底层原理,能作为技术担当,解决核心技术问题;
2、3年以上大数据平台项目架构或开发经验,对大数据生态技术体系有全面了解,如Yarn、Spark、HBase、Hive、Elasticsearch、Kafka、PrestoDB、Phoenix等;
3、掌握git、maven、gradle、junit等工具和实践,注重文档管理、注重工程规范优先;
4、熟悉Java后台开发体系,具备微服务架构的项目实施经验,有Dubbo/Spring cloud微服务架构设计经验优先;
5、性格开朗、善于沟通,有极强的技术敏感性和自我驱动学习能力,注重团队意识。
职责描述:
1、负责大数据平台框架的规划设计、搭建、优化和运维;
2、负责架构持续优化及系统关键模块的设计开发,协助团队解决开发过程中的技术难题;
3、负责大数据相关新技术的调研,关注大数据技术发展趋势、研究开源技术、将新技术应用到大数据平台,推动数据平台发展;
4、负责数据平台开发规范制定,数据建模及核心框架开发。
任职要求:
1、计算机、数学等专业本科及以上学历;
2、具有5年及以上大数据相关工作经验;
3、具有扎实的大数据和数据仓库的理论功底,负责过大数据平台或数据仓库设计;
4、基于hadoop的大数据体系有深入认识,具备相关产品(hadoop、hive、hbase、spark、storm、 flume、kafka、es等)项目应用研发经验,有hadoop集群搭建和管理经验;
5、熟悉传统数据仓库数据建模,etl架构和开发流程,使用过kettle、talend、informatic等至少一种工具;
6、自驱力强、优秀的团队意识和沟通能力,对新技术有好奇心,学习能力和主动性强,有钻研精神,充满激情,乐于接受挑战;
H. 大数据的主要学习内容有哪些
大数据主要的学习内容,看下图
大数据学习内容
按照顺序学习就可以了,希望你早日学有所成。