大数据eshadoop_大数据的主要学习内容有哪些

A. 大数据平台的软件有哪些

这个要分好几块来讲，首先我要说明的是大数据项目也是要有很多依赖的模块的。每个模块的软件不一样，下面分别聊一下。

一、大数据处理

这个是所谓大数据项目中最先想到的模块。主要有spark，hadoop，es，kafka，hbase，hive等。

当然像是flume，sqoop也都很常用。

这些软件主要是为了解决海量数据处理的问题。软件很多，我只列几个经典的，具体可以自行网络。

二、机器学习相关

大部分大数据项目都和机器学习相关。因此会考虑到机器学习的一些软件，比如说sklearn，spark的ml，当然还有自己实现的代码。

三、web相关技术

大部分项目也都跑不了一个web的展示，因此web就很重要的，java的ssh，python的django都可以，这个看具体的项目组习惯了。

四、其它

还有一些很常用的东西，个人感觉不完全算是大数据特定使用范橘埋高围。反正我在做大数据项目的时候也都用到了。

比如说数据存储：redis，mysql。

数据可视化：echart，d3js。

图数据库：neo4j。

再来说说大数据平台的软件或者工具：

1、数据库，大数据平台类，星环，做Hadoop生态系列的大数据平台圆尺公司。Hadoop是开源的，星环主要做的是把Hadoop不稳定的部分优化，功能细化，为企业提供Hadoop大数据引擎及液键数据库工具。

2、大数据存储硬件类，浪潮，很老牌的IT公司，国资委控股，研究大数据方面的存储，在国内比较领先。

3、云计算，云端大数据类，阿里巴巴，明星产品-阿里云，与亚马逊AWS抗衡，做公有云、私有云、混合云。实力不差，符合阿里巴巴的气质，很有野心。

4、数据应用方面这个有很多，比如帆软旗下的FineReport报表系统和FineBI大数据分析平台等。

帆软是商业智能和数据分析平台提供商，从报表工具到商业智能，有十多年的数据应用的底子，在这个领域很成熟，目前处于快速成长期，但是很低调，是一家有技术有实力而且对客户很真诚的公司。

B. 两台服务器手动部署大数据平台

两台服务器手动部署大数据平台

##### 初始服务器数量

- 2台centos7

##### 建议配置

- 32G(RAM)

- 24cpu

- 10t(SATA)

### 1.环境

- 系统centos7

- jdk：1.8.0_171（64位）

- zookeeper：3.4.8

- spark-2.1.0-bin-hadoop2.6

- kafka_2.10-0.10.2.1

- hadoop-2.7.0

- hbase-1.2.6

- elasticsearch-6.3.0

### 2.系统准备

对应的安装包文件：

elasticsearch-6.3.0.tar.gz

hadoop-2.7.0.tar.gz

hbase-1.2.6-bin.tar.gz

jdk-8u171-linux-x64.tar.gz

kafka_2.10-0.10.2.1.tgz

mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar

spark2.1.0hadoop2.6.tgz.gz

zookeeper-3.4.8.tar.gz

一、配置好hosts

```

两台设备的host

ip1 hello1

ip2 hello2

关闭防火墙

systemctl stop firewalld

systemctl disable firewalld

二、机器之间做好免密

1. 在hello1服务器中，cd /root/

2. ssh-keygen -trsa (全部按回车，走默认配置)

3. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4. chmod 600 ~/.ssh/authorized_keys

5. scp ~/.ssh/authorized_keys root@hello2:~/.ssh/

到此处时可以实现hello1机器上通过root账户登录到hello2中，但从hello2中无法通过免密码登录到hello1服务器。

6. 在hello2服务器中，cd /root/

7. ssh-keygen -trsa (全部按回车，走默认配置)

8. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

9. scp ~/.ssh/authorized_keys root@hello1:~/.ssh/

到此处时可以实现hello1机器与hello2机器之间免密码互通

三、建立一个用户操作elasticsearch用户，后期所有安装软件放在该目录下（当前使用root账户安装）

1.添加用户：

useradd -m -s /bin/bash es

2.为该用户设置密码：

password es

四、安装JDK

如果系统自带openjdk，先将其卸载掉！

1.创建jdk安装路径(hello1、hello2都执行)

执行： mkdir /usr/java

2.解压缩jdk到安装目录

执行： tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/

3.添加环境变量

vi /etc/profile,添加以下语句

export JAVA_HOME=/usr/java/jdk1.8.0_171

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

执行：source /etc/profile

4.复制安装包和数据目录到hello2

scp -r /usr/java/jdk1.8.0_171 hello2:/usr/java/

scp /etc/profile hello2:/etc/

登录到hello2上，进入/home/es目录

执行： source /etc/profile

5、验证：

两台服务器上分别执行： java -version,查看输出的版本是否与安装的版本一致。

五、安装mysql

1.如果centos系统中自带mariadb，先卸载mariadb。

2.解压mysql安装包程序

执行：tar -xvf mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar

3.依次安装里面rpm包组建

rpm -ivh mysql-community-common-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-devel-5.7.23-1.el7.x86_64.rpm

4.启动MySQL

执行： systemctl start mysqld

5.登录mysql服务器

这种方式安装好后，会再my.cnf文件中自动生成一个密码，

执行：cat /var/log/mysqld.log | grep password，出现如下记录：

2017-09-15T01:58:11.863301Z 1 [Note] A temporary password is generated for root@localhost: m-NdrSG4ipuO

其中“m-NdrSG4ipuO”为mysql root账户的初始密码。

登录：

执行： mysql -uroot -p

输入密码： m-NdrSG4ipuO，即可进入mysql服务器。

后续可自行修改root密码，创建新账户等操作。

六、安装zookeeper

1.解压zookeeper安装包到指定目录（/home/es）

tar -zxvf zookeeper-3.4.8.tar.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s zookeeper-3.4.8 zookeeper

3.添加执行路径环境

vi /etc/profile

添加

export ZOOKEEPER_HOME=/home/es/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

执行

source /etc/profile

4.修改配置文件

cd /home/es/zookeeper

cp conf/zoo_sample.cfg conf/zoo.cfg

在/home/data下创建对应的zookeeper数据存储目录

mkdir /home/data/zookeeper

mkdir /home/data/zookeeper/data

mkdir /home/data/zookeeper/log

修改配置文件：conf/zoo.cfg，添加以下语句

dataDir=/home/data/zookeeper/data

dataLogDir=/home/data/zookeeper/log

server.1=hello1:2888:3888

server.2=hello2:2888:3888

5.创建server表示符文件

touch /home/data/zookeeper/data/myid

echo echo 1>/home/data/zookeeper/data/myid

6.复制安装包和数据目录到hello2

scp -r /home/es/zookeeper-3.4.8 es@hello2:/home/es

scp -r /home/data/zookeeper es@hello2:/home/data

scp /etc/profile es@hello2:/etc

登录到hello2上

cd /home/es

ln -s zookeeper-3.4.8 zookeeper

echo echo 2>/home/data/zookeeper/data/myid

执行

source /etc/profile

7.两台机器上分别执行

zkServer.sh start

8.验证

jps | grep QuorumPeerMain,查看是否有该进程

zkServer.sh status,查看服务状态

六、安装kafka

1.解压kafka安装包到指定目录（/home/es）

tar -zxvf kafka_2.10-0.10.2.1.tgz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s kafka_2.10-0.10.2.1 kafka

3.修改配置文件

备份：

cp config/server.properties config/server.properties.bak

创建kafka日志目录：

mkdir /home/data/kafka

mkdir /home/data/kafka/kafka-logs

修改:config/server.properties,具体对应字段如下：

broker.id=0

delete.topic.enable=true

num.network.threads=10

num.io.threads=32

socket.send.buffer.bytes=102400

socket.receive.buffer.bytes=102400

socket.request.max.bytes=104857600

log.dirs=/home/data/kafka/kafka-logs

num.partitions=1

num.recovery.threads.per.data.dir=1

log.retention.hours=168

log.segment.bytes=1073741824

log.retention.check.interval.ms=300000

zookeeper.connect=hello1:2181,hello2:2181

zookeeper.connection.timeout.ms=6000

6.复制安装包和数据目录到hello2

scp -r /home/es/kafka_2.10-0.10.2.1 es@hello2:/home/es

scp -r /home/data/kafka es@hello2:/home/data

修改hello2中的配置

登录到hello2上，cd /home/es/kafka,修改config/server.properties中broker.id值为2.

7.启动kafka

在两台机器的/home/es/kafka中，创建一个日志存放目录：mkdir start_log，执行以下命令：

nohup bin/kafka-server-start.sh config/server.properties > start_log/kafka_start_log 2>&1 &

8.验证运行情况

jps | grep Kafka,查看进程

通过kafka命令查看topic。

七、安装hadoop

1.解压hadoop安装包到指定目录（/home/es）

tar -zxvf hadoop-2.7.0.tar.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s hadoop-2.7.0 hadoop

3.创建数据存放目录

mkdir /home/data/hadoop

mkdir /home/data/hadoop/tmp

mkdir /home/data/hadoop/dfs

mkdir /home/data/hadoop/dfs/data

mkdir /home/data/hadoop/dfs/name

4.修改配置文件

修改/home/es/hadoop/etc/hadoop/core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://hello1:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/data/hadoop/tmp</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131702</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/hdfs-site.xml

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/data/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/data/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hello1:9001</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/mapred-site.xml

<configuration>

<property>

<name>maprece.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>maprece.jobhistory.address</name>

<value>hello1:10020</value>

</property>

<property>

<name>maprece.jobhistory.webapp.address</name>

<value>hello1:19888</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/yarn-site.xml

<configuration>



<property>

<name>yarn.nodemanager.aux-services</name>

<value>maprece_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.auxservices.maprece.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>hello1:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheler.address</name>

<value>hello1:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hello1:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>hello1:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hello1:8088</value>

</property>

<property>

<name>yarn.nodemanager.resource.memory-mb</name>

<value>768</value>

</property>

</configuration>

配置/home/es/hadoop/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME（不设置的话，启动不了）

export JAVA_HOME=/usr/java/jdk1.8.0_171

配置/home/es/hadoop/etc/hadoop目录下的slaves，删除默认的localhost，增加2个从节点，

hello1

hello2

5、将配置好的Hadoop复制到各个节点对应位置上，通过scp传送

scp -r /home/es/hadoop-2.7.0 hello2:/home/es/

scp -r /home/data/hadoop hello2:/home/data/

登录到hello2上，进入/home/es目录

执行： ln -s hadoop-2.7.0 hadoop

6、格式化nameNode及启动hadoop

在主服务器启动hadoop，从节点会自动启动，进入/home/es/hadoop目录

初始化，输入命令，bin/hdfs namenode -format

全部启动sbin/start-all.sh，也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh

输入命令，jps，可以看到相关信息

7、验证hadoop运行情况

浏览器打开http://hello1:8088/

浏览器打开http://hello1:50070/

8、添加hadoop环境变量到/etc/profile

export HADOOP_HOME=/home/es/hadoop export PATH=$PATH:$HADOOP_HOME/sbin

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

执行： source /etc/profile

八、安装Hbase

1.解压hbase安装包到指定目录（/home/es）

tar -zxvf hbase-1.2.6-bin.tar.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s hbase-1.2.6 hbase

3.添加hbase环境变量到/etc/profile

export HBASE_HOME=/home/es/hbase

export PATH=$HBASE_HOME/bin:$PATH

执行：source /etc/profile

4.修改HBASE配置文件

vi /home/es/hbase/conf/hbase-env.sh

增加： export JAVA_HOME=/usr/java/jdk1.8.0_171

修改： export HBASE_MANAGES_ZK=false

vi /home/es/hbase/conf/hbase-site.xml

修改类容：

<configuration>

<property>

<name>hbase.rootdir</name> 

<value>hdfs://hello1:9000/hbase/hbase_db</value>



</property>

<property>

<name>hbase.cluster.distributed</name> 

<value>true</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name> 

<value>hello1,hello2</value>

</property>

<property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/home/es/hbase/zookeeper</value>

</property>

</configuration>

配置regionservers，vi /home/es/hbase/conf/regionservers

去掉默认的localhost，加入hello1、hello2

5、将配置好的hbase复制到各个节点对应位置上，通过scp传送

scp -r /home/es/hbase-1.2.6 hello2:/home/es/

scp /etc/profile hello2:/etc/

登录到hello2上，进入/home/es目录

执行： ln -s hbase-1.2.6 hbase

source /etc/profile

6、hbase的启动

hello1中执行： start-hbase.sh

7、验证hbase运行情况

输入jps命令查看进程是否启动成功，若 hello1上出现HMaster、HRegionServer、HQuormPeer，hello2上出现HRegionServer、HQuorumPeer，就是启动成功了。

输入hbase shell 命令进入hbase命令模式，输入status命令，查看运行状态。

在浏览器中输入http://hello1:16010就可以在界面上看到hbase的配置

注意事项：

正常安装后，创建普通不带压缩表可以正常读写，当使用snappy进行压缩创建表时，该表无法再regionServer中启动！

解决方法：

1.在hbase-site.xml文件中添加一下属性

<property>

<name>hbase.regionserver.codecs</name>

<value>snappy</value>

</property>

2.每台机器中将hadoop_native.zip解压缩到hbase安装目录的lib下，执行 unzip hadoop_native.zip $HBASE_HOME/lib/

3.在$HBASE_HOME/conf/hbase-env.sh 中添加：export HBASE_LIBRARY_PATH=/home/es/hbase/lib/native

4.重启Hbase服务即可

九、Spark安装

1.解压hbase安装包到指定目录（/home/es）

tar -zxvf spark2.1.0hadoop2.6.tgz.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s spark2.1.0hadoop2.6 spark

3.修改配置文件

mv /home/es/spark/conf/spark-env.sh.template /home/es/spark/conf/spark-env.sh

vi /home/es/spark/conf/spark-env.sh

修改对应配置：

export JAVA_HOME=/usr/java/jdk1.8.0_171

export SPARK_MASTER_IP=hello1

export SPARK_MASTER_PORT=7077

export SPARK_LOCAL_IP=hello1

修改slaves文件

mv /home/es/spark/conf/slaves.template /home/es/spark/conf/slaves

vi /home/es/spark/conf/slaves

将localhost修改成：

hello1

hello2

5、将配置好的hbase复制到各个节点对应位置上，通过scp传送

scp -r /home/es/spark2.1.0hadoop2.6 hello2:/home/es/

登录到hello2上，进入/home/es目录

执行： ln -s spark2.1.0hadoop2.6 spark

在hello2中修改/home/es/spark/conf/spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_171

export SPARK_MASTER_IP=hello1

export SPARK_MASTER_PORT=7077

export SPARK_LOCAL_IP=hello2

6、启动spark

cd /home/es/spark

执行： sbin/start-all.sh

7、检测执行结果

jps | grep Worker,看是否有相应的进程。

十、安装elasticsearch

由于elasticsearch，用root账户无法启动，故该组件用es账户安装

1、切换到es账户： su es

2、解压hbase安装包到指定目录（/home/es）

tar -zxvf elasticsearch-6.3.0.tar.gz -C /home/es/

创建程序软连接

cd /home/es/

ln -s elasticsearch-6.3.0 elasticsearch

3、修改配置文件

vi /home/es/elasticsearch/config/elasticsearch.yml

# 集群的名字

cluster.name: crrc-health

# 节点名字

node.name: node-1

# 数据存储目录（多个路径用逗号分隔）

path.data: /home/data1/elasticsearch/data

# 日志目录

path.logs: /home/data1/elasticsearch/logs

#本机的ip地址

network.host: hello1

#设置集群中master节点的初始列表，可以通过这些节点来自动发现新加入集群的节点

discovery.zen.ping.unicast.hosts: ["hello1", "hello2"]

# 设置节点间交互的tcp端口（集群）,(默认9300)

transport.tcp.port: 9300

# 监听端口（默认）

http.port: 9200

# 增加参数，使head插件可以访问es

http.cors.enabled: true

http.cors.allow-origin: "*"

4、创建elasticsearch数据和存储目录

mkdir /home/data1/elasticsearch

mkdir /home/data1/elasticsearch/data

mkdir /home/data1/elasticsearch/logs

5、修改linux系统的默认硬限制参数

切换至root用户： su root

vim /etc/security/limits.conf

添加：

es soft nofile 65536

es hard nofile 65536

退出es登录，重新用es账户登录，使用命令：ulimit -Hn查看硬限制参数。

vi /etc/sysctl.conf

添加：

vm.max_map_count=655360

执行：

sysctl -p

6、将配置好的elasticsearch复制到各个节点对应位置上，通过scp传送

scp -r /home/es/elasticsearch-6.3.0 hello2:/home/es/

scp -r /home/data1/elasticsearch hello2:/home/data1/

登录到hello2上，进入/home/es目录

执行： ln -s elasticsearch-6.3.0 elasticsearch-6.3.0

在hello2中修改/home/es/elasticsearch/config/elasticsearch.yml

修改： network.host: hello2

7、启动elasticsearch

使用es账户

执行：

/home/es/elasticsearch/bin/elasticsearch -d

8、验证

控制台中输入：curl http://hello1:9200

C. 从业大数据方向，需要掌握哪些技能，具体学习路线是什么

你好，大数据学习路线有8个阶段的内容，你可以按照顺序学习，祝你早日学有所成！

大数据学习路线

D. 本人想自学大数据hadoop，有那种讲得比较全面详细的大数据视频教程资源吗

现在大数据人才的缺口很大，但是从事大数据开发是需要一定的数据库基础和编程基础回的，而且大数据答的教学视频或者书籍目前来说适合入门的非常少，课程也非常繁杂。自学的难度不小，如果你的逻辑思维能力足够好的话可以先看尚硅谷的谷粒学院大数据Hadoop教程。

E. 大数据都需要学习什么

大数据专业是一项技术的学习方向，该专业是交叉性学科，学习内容涵盖较广，其中以统计学、数学、计算机为三大支撑柱学科，并以生物、医学、环境科学、经济学、管理学等作为辅助拓展。除此之外还需要学习数据采集、数据分析、数据处理软件及计算机编程语言等。不同的工作岗位与方向，需要从事的工作也不是一样的，因此催生出了许多职位。较为常见的大数据发展方向是大数据开发、大数据分析。

回过头来我们看看学习大数据需要的基础

1、java SE、EE（SSM）
90%的大数据框架都是Java写的
2、MySQL
SQL on Hadoop
3、Linux
大数据的框架安装在Linux操作系统上

- 需要学什么

大数据离线分析

一般处理T+1数据（T：可能是1天、一周、一个月、一年）
a、Hadoop ：一般不选用最新版本，踩坑难解决
（common、HDES、MapRece、YARN）
环境搭建、处理数据的思想
b、Hive：大数据的数据仓库
通过写SQL对数据进行操作，类似于MySQL数据库的sql
c、HBase：基于HDFS的NOSQL数据库
面向列存储
d、协作框架：
sqoop（桥梁：HDFS《==》RDBMS）
flume：搜集日志文件中的信息
e、调度框架
anzkaban
了解：crotab（Linux自带）
zeus（Alibaba）
Oozie（cloudera）
f、前沿框架扩展：
kylin、impala、ElasticSearch（ES）

大数据实时分析

以spark框架为主
Scala：OOP（面向对象程序设计）+FP（函数是程序设计）
sparkCore：类比MapRece
sparkSQL：类比hive
sparkStreaming：实时数据处理
kafka：消息队列
前沿框架扩展：flink
阿里巴巴：blink

大数据机器学习

spark MLlib：机器学习库
pyspark编程：Python和spark的结合
推荐系统
python数据分析
python机器学习

F. 入门大数据需要学习什么内容

作为一名零基础学习者，请不要将大数据开发看做一门与Java、python等相似的IT语言，大数据更像是一门技术，其所包含的内容相对比较多。在正式开始学习之前，可以买一些大数据相关书籍或者找一些网上的学习资料，先建立对行业以及对大数据相关职位的了解。

比如，大数据分为哪些发展方向，不同的发展方向对应哪些发展职位，各个职位的发展所要求的核心技能点是什么，企业对于大数据人才的需求是什么样的，了解清楚了这些，才能真正考虑清楚，学什么怎么学。

以大数据开发来说，其中涉及到的主要是大数据应用开发，要求一定的编程能力，在学习阶段，主要需要学习掌握大数据技术框架，包括hadoop、hive、oozie、flume、hbase、kafka、scala、spark等等……

以大数据分析来说，有主攻业务运营方面的数据分析师，也有主攻机器学习、深度学习等的数据挖掘师，具体到其中的各个职位，更是有着更加具体的技能要求，那么在学习阶段就要先做好相关的准备了。

关于入门大数据需要学习什么内容，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

G. 大数据架构师岗位的主要职责概述

大数据架构师岗位的主要职责概述篇1

职责：

1、负责大数据平台及BI系统框架设计、规划、技术选型，架构设计并完成系统基础服务的开发;

2、负责海量埋点规则、SDK标准化、埋点数据采集、处理及存储，业务数据分布存储、流式/实时计算等应用层架构搭建及核心代码实现;

3、开发大数据平台的核心代码，项目敏捷开发流程管理，完成系统调试、集成与实施，对每个项目周期技术难题的解决，保证大数据产品的上线运行;

4、负责大数据平台的架构优化，代码评审，并根据业务需求持续优化数据架构，保证产品的可靠性、稳定性;

5、指导开发人员完成数据模型规划建设，分析模型构建及分析呈现，分享技术经验;

6、有效制定各种突发性研发技术故障的应对预案，有清晰的隐患意识;

7、深入研究大数据相关技术和产品，跟进业界先进技术;

任职要求

1、统计学、应用数学或计算机相关专业大学本科以上学历;

2、熟悉互联网移动端埋点方法(点击和浏览等行为埋点)，无埋点方案等，有埋点SDK独立开发经验者优选;

3、熟悉Hadoop，MR/MapRece，Hdfs，Hbase，Redis，Storm，Python，zookeeper，kafka，flinkHadoop，hive，mahout，flume，ElasticSearch，KafkaPython等，具备实际项目设计及开发经验;

4、熟悉数据采集、数据清洗、分析和建模工作相关技术细节及流程

5、熟悉Liunx/Unix操作系统，能熟练使用shell/perl等脚本语言，熟练掌握java/python/go/C++中一种或多种编程语言

6、具备一定的算法能力，了解机器学习/深度学习算法工具使用，有主流大数据计算组件开发和使用经验者优先

7、熟悉大数据可视化工具Tableau/echarts

8、具有较强的执行力，高度的责任感、很强的学习、沟通能力，能够在高压下高效工作;

大数据架构师岗位的主要职责概述篇2

职责：

根据大数据业务需求，设计大数据方案及架构，实现相关功能;

搭建和维护大数据集群，保证集群规模持续、稳定、高效平稳运行;

负责大数据业务的设计和指导具体开发工作;

负责公司产品研发过程中的数据及存储设计;

针对数据分析工作，能够完成和指导负责业务数据建模。

职位要求：

计算机、自动化或相关专业(如统计学、数学)本科以上学历，3年以上大数据处理相关工作经验;

精通大数据主流框架(如Hadoop、hive、Spark等);

熟悉MySQL、NoSQL(MongoDB、Redis)等主流数据库，以及rabbit MQ等队列技术;

熟悉hadoop/spark生态的原理、特性且有实战开发经验;

熟悉常用的数据挖掘算法优先。

大数据架构师岗位的主要职责概述篇3

职责：

1、大数据平台架构规划与设计;

2、负责大数据平台技术框架的选型与技术难点攻关;

3、能够独立进行行业大数据应用的整体技术框架、业务框架和系统架构设计和调优等工作，根据系统的业务需求，能够指导开发团队完成实施工作;

4、负责数据基础架构和数据处理体系的升级和优化，不断提升系统的稳定性和效率，为相关的业务提供大数据底层平台的支持和保证;

5、培养和建立大数据团队，对团队进行技术指导。

任职要求：

1、计算机相关专业的背景专业一类院校毕业本科、硕士学位，8年(硕士5年)以上工作经验(至少拥有3年以上大数据项目或产品架构经验);

2、精通Java，J2EE相关技术，精通常见开源框架的架构，精通关系数据库系统(Oracle MySQL等)和noSQL数据存储系统的原理和架构;

3、精通SQL和Maprece、Spark处理方法;

4、精通大数据系统架构，熟悉业界数据仓库建模方法及新的建模方法的发展，有DW，BI架构体系的专项建设经验;

5、对大数据体系有深入认识，熟悉Kafka、Hadoop、Hive、HBase、Spark、Storm、greenplum、ES、Redis等大数据技术，并能设计相关数据模型;

6、很强的学习、分析和解决问题能力，可以迅速掌握业务逻辑并转化为技术方案，能独立撰写项目解决方案、项目技术文档;

7、具有较强的内外沟通能力，良好的团队意识和协作精神;

8、机器学习技术、数据挖掘、人工智能经验丰富者优先考虑;

9、具有能源电力行业工作经验者优先。

大数据架构师岗位的主要职责概述篇4

职责：

1.参与公司数据平台系统规划和架构工作，主导系统的架构设计和项目实施，确保项目质量和关键性能指标达成;

2.统筹和推进制造工厂内部数据系统的构建，搭建不同来源数据之间的逻辑关系，能够为公司运营诊断、运营效率提升提供数据支持;

3.负责数据系统需求对接、各信息化系统数据对接、软件供应商管理工作

5.根据现状制定总体的数据治理方案及数据体系建立，包括数据采集、接入、分类、开发标准和规范，制定全链路数据治理方案;深入挖掘公司数据业务，超强的数据业务感知力，挖掘数据价值，推动数据变现场景的落地，为决策及业务赋能;

6.定义不同的数据应用场景，推动公司的数据可视化工作，提升公司数据分析效率和数据价值转化。

任职要求：

1.本科以上学历，8年以上软件行业从业经验，5年以上大数据架构设计经验，熟悉BI平台、大数据系统相关技术架构及技术标准;

2.熟悉数据仓库、熟悉数据集市，了解数据挖掘、数据抽取、数据清洗、数据建模相关技术;

3.熟悉大数据相关技术：Hadoop、Hive、Hbase、Storm、Flink、Spark、Kafka、RabbitMQ;

4.熟悉制造企业信息化系统及相关数据库技术;

5.具备大数据平台、计算存储平台、可视化开发平台经验，具有制造企业大数据系统项目开发或实施经验优先;

6.对数据敏感，具备优秀的业务需求分析和报告展示能力，具备制造企业数据分析和数据洞察、大数据系统的架构设计能力，了解主流的报表工具或新兴的前端报表工具;

7.有较强的沟通和组织协调能力，具备结果导向思维，有相关项目管理经验优先。

大数据架构师岗位的.主要职责概述篇5

职责：

1.负责产品级业务系统架构(如业务数据对象识别，数据实体、数据属性分析，数据标准、端到端数据流等)的设计与优化。协助推动跨领域重大数据问题的分析、定位、解决方案设计，从架构设计上保障系统高性能、高可用性、高安全性、高时效性、分布式扩展性，并对系统质量负责。

2.负责云数据平台的架构设计和数据处理体系的优化，推动云数据平台建设和持续升级，并制定云数据平台调用约束和规范。

3.结合行业应用的需求负责数据流各环节上的方案选型，主导云数据平台建设，参与核心代码编写、审查;数据的统计逻辑回归算法、实时交互分析;数据可视化方案等等的选型、部署、集成融合等等。

4.对云数据平台的关注业内技术动态，持续推动平台技术架构升级，以满足公司不同阶段的数据需求。

任职要求：

1.熟悉云计算基础平台，包括Linux(Ubuntu/CentOS)和KVM、OpenStack/K8S等基础环境，熟悉控制、计算、存储和网络;

2.掌握大型分布式系统的技术栈，如：CDN、负载均衡、服务化/异步化、分布式缓存、NoSQL、数据库垂直及水平扩容;熟悉大数据应用端到端的相关高性能产品。

3.精通Java，Python，Shell编程语言，精通SQL、NoSQL等数据库增删改查的操作优化;

4.PB级别实战数据平台和生产环境的实施、开发和管理经验;

5.熟悉Docker等容器的编排封装，熟悉微服务的开发和日常调度;

6.计算机、软件、电子信息及通信等相关专业本科以上学历，5年以上软件工程开发经验，2年以上大数据架构师工作经验。

大数据架构师岗位的主要职责概述篇6

职责描述：

1、负责集团大数据资产库的技术架构、核心设计方案，并推动落地；

2、带领大数据技术团队实现各项数据接入、数据挖掘分析及数据可视化；

3、新技术预研，解决团队技术难题。

任职要求：

1、在技术领域有5年以上相关经验，3年以上的架构设计或产品经理经验；

2、具有2年以上大数据产品和数据分析相关项目经验；

3、精通大数据分布式系统（hadoop、spark、hive等）的架构原理、技术设计；精通linux系统；精通一门主流编程语言，java优先。

大数据架构师岗位的主要职责概述篇7

岗位职责：

1、基于公司大数据基础和数据资产积累，负责大数据应用整体技术架构的设计、优化，建设大数据能力开放平台；负责大数据应用产品的架构设计、技术把控工作。

2、负责制定大数据应用系统的数据安全管控体系和数据使用规范。

3、作为大数据技术方案到产品实现的技术负责人，负责关键技术点攻坚工作，负责内部技术推广、培训及知识转移工作。

4、负责大数据系统研发项目任务规划、整体进度、风险把控，有效协同团队成员并组织跨团队技术协作，保证项目质量与进度。

5、负责提升产品技术团队的技术影响力，针对新人、普通开发人员进行有效辅导，帮助其快速成长。

任职资格：

1、计算机、数学或相关专业本科以上学历，5—20xx年工作经验，具有大型系统的技术架构应用架构数据架构相关的实践工作经验。

2、有分布式系统分析及架构设计经验，熟悉基于计算集群的软件系统架构和实施经验。

3、掌握Hadoop/Spark/Storm生态圈的主流技术及产品，深入了解Hadoop/Spark/Storm生态圈产品的工作原理及应用场景。

4、掌握Mysql/Oracle等常用关系型数据库，能够对SQL进行优化。

5、熟悉分布式系统基础设施中常用的技术，如缓存（Varnish、Memcache、Redis）、消息中间件（Rabbit MQ、Active MQ、Kafka、NSQ）等；有实践经验者优先。

6、熟悉Linux，Java基础扎实，至少3—5年以上Java应用开发经验，熟悉常用的设计模式和开源框架。

大数据架构师岗位的主要职责概述篇8

岗位职责：

1、负责公司大数据平台架构的技术选型和技术难点攻关工作；

2、依据行业数据现状和客户需求，完成行业大数据的特定技术方案设计与撰写；

3、负责研究跟进大数据架构领域新兴技术并在公司内部进行分享；

4、参与公司大数据项目的技术交流、解决方案定制以及项目的招投标工作；

5、参与公司大数据项目前期的架构设计工作；

任职要求：

1、计算机及相关专业本科以上，5年以上数据类项目（数据仓库、商务智能）实施经验，至少2年以上大数据架构设计和开发经验，至少主导过一个大数据平台项目架构设计；

2、精通大数据生态圈的技术，包括但不限于MapRece、Spark、Hadoop、Kafka、Mongodb、Redis、Flume、Storm、Hbase、Hive，具备数据统计查询性能优化能力。熟悉星环大数据产品线及有过产品项目实施经验者优先；

3、优秀的方案撰写能力，思路清晰，逻辑思维强，能够根据业务需求设计合理的解决方案；

4、精通ORACLE、DB2、mySql等主流关系型数据库，熟悉数据仓库建设思路和数据分层架构思想；

5。熟练掌握java、R、python等1—2门数据挖掘开发语言；

6。熟悉云服务平台及微服务相关架构思想和技术路线，熟悉阿里云或腾讯云产品者优先；

7、有烟草或制造行业大数据解决方案售前经验者优先；

8、能适应售前支持和项目实施需要的短期出差；

大数据架构师岗位的主要职责概述篇9

岗位职责：

1、负责相关开源系统/组件的性能、稳定性、可靠性等方面的深度优化；

2、负责解决项目上线后生产环境的各种实际问题，保障大数据平台在生产上的安全、平稳运行；

3、推动优化跨部门的业务流程，参与业务部门的技术方案设计、评审、指导；

4、负责技术团队人员培训、人员成长指导。

5、应项目要求本月办公地址在锦江区金石路316号新希望中鼎国际办公，月底项目结束后在总部公司办公

任职要求：

1、熟悉linux、JVM底层原理，能作为技术担当，解决核心技术问题；

2、3年以上大数据平台项目架构或开发经验，对大数据生态技术体系有全面了解，如Yarn、Spark、HBase、Hive、Elasticsearch、Kafka、PrestoDB、Phoenix等；

3、掌握git、maven、gradle、junit等工具和实践，注重文档管理、注重工程规范优先；

4、熟悉Java后台开发体系，具备微服务架构的项目实施经验，有Dubbo/Spring cloud微服务架构设计经验优先；

5、性格开朗、善于沟通，有极强的技术敏感性和自我驱动学习能力，注重团队意识。

大数据架构师岗位的主要职责概述篇10

职责描述：

1、负责大数据平台框架的规划设计、搭建、优化和运维；

2、负责架构持续优化及系统关键模块的设计开发，协助团队解决开发过程中的技术难题；

3、负责大数据相关新技术的调研，关注大数据技术发展趋势、研究开源技术、将新技术应用到大数据平台，推动数据平台发展；

4、负责数据平台开发规范制定，数据建模及核心框架开发。

任职要求：

1、计算机、数学等专业本科及以上学历；

2、具有5年及以上大数据相关工作经验；

3、具有扎实的大数据和数据仓库的理论功底，负责过大数据平台或数据仓库设计；

4、基于hadoop的大数据体系有深入认识，具备相关产品（hadoop、hive、hbase、spark、storm、 flume、kafka、es等）项目应用研发经验，有hadoop集群搭建和管理经验；

5、熟悉传统数据仓库数据建模，etl架构和开发流程，使用过kettle、talend、informatic等至少一种工具；

6、自驱力强、优秀的团队意识和沟通能力，对新技术有好奇心，学习能力和主动性强，有钻研精神，充满激情，乐于接受挑战；

H. 大数据的主要学习内容有哪些

大数据主要的学习内容,看下图

大数据学习内容

按照顺序学习就可以了，希望你早日学有所成。

导航:首页 > 网络数据 > 大数据eshadoop

大数据eshadoop

大数据架构师岗位的主要职责概述篇1

大数据架构师岗位的主要职责概述篇2

大数据架构师岗位的主要职责概述篇3

大数据架构师岗位的主要职责概述篇4

大数据架构师岗位的.主要职责概述篇5

大数据架构师岗位的主要职责概述篇6

大数据架构师岗位的主要职责概述篇7

大数据架构师岗位的主要职责概述篇8

大数据架构师岗位的主要职责概述篇9

大数据架构师岗位的主要职责概述篇10

与大数据eshadoop相关的资料

友情链接

导航:首页 > 网络数据 > 大数据eshadoop

大数据eshadoop

大数据架构师岗位的主要职责概述 篇1

大数据架构师岗位的主要职责概述 篇2

大数据架构师岗位的主要职责概述 篇3

大数据架构师岗位的主要职责概述 篇4

大数据架构师岗位的.主要职责概述 篇5

大数据架构师岗位的主要职责概述 篇6

大数据架构师岗位的主要职责概述 篇7

大数据架构师岗位的主要职责概述 篇8

大数据架构师岗位的主要职责概述 篇9

大数据架构师岗位的主要职责概述 篇10

与大数据eshadoop相关的资料

友情链接

大数据架构师岗位的主要职责概述篇1

大数据架构师岗位的主要职责概述篇2

大数据架构师岗位的主要职责概述篇3

大数据架构师岗位的主要职责概述篇4

大数据架构师岗位的.主要职责概述篇5

大数据架构师岗位的主要职责概述篇6

大数据架构师岗位的主要职责概述篇7

大数据架构师岗位的主要职责概述篇8

大数据架构师岗位的主要职责概述篇9

大数据架构师岗位的主要职责概述篇10