導航:首頁 > 網路數據 > 大數據eshadoop

大數據eshadoop

發布時間:2024-01-10 10:29:04

A. 大數據平台的軟體有哪些

這個要分好幾塊來講,首先我要說明的是大數據項目也是要有很多依賴的模塊的。每個模塊的軟體不一樣,下面分別聊一下。

一、大數據處理

這個是所謂大數據項目中最先想到的模塊。主要有spark,hadoop,es,kafka,hbase,hive等。

當然像是flume,sqoop也都很常用。

這些軟體主要是為了解決海量數據處理的問題。軟體很多,我只列幾個經典的,具體可以自行網路

二、機器學習相關

大部分大數據項目都和機器學習相關。因此會考慮到機器學習的一些軟體,比如說sklearn,spark的ml,當然還有自己實現的代碼

三、web相關技術

大部分項目也都跑不了一個web的展示,因此web就很重要的,java的ssh,python的django都可以,這個看具體的項目組習慣了。

四、其它

還有一些很常用的東西,個人感覺不完全算是大數據特定使用范橘埋高圍。反正我在做大數據項目的時候也都用到了。

比如說數據存儲:redis,mysql。

數據可視化:echart,d3js

資料庫:neo4j。

再來說說大數據平台的軟體或者工具

1、資料庫,大數據平台類,星環,做Hadoop生態系列的大數據平台圓尺公司。Hadoop是開源的,星環主要做的是把Hadoop不穩定的部分優化,功能細化,為企業提供Hadoop大數據引擎及液鍵資料庫工具。

2、大數據存儲硬體類,浪潮,很老牌的IT公司,國資委控股,研究大數據方面的存儲,在國內比較領先。

3、雲計算,雲端大數據類,阿里巴巴,明星產品-阿里雲,與亞馬遜AWS抗衡,做公有雲、私有雲、混合雲。實力不差,符合阿里巴巴的氣質,很有野心。

4、數據應用方面這個有很多,比如帆軟旗下的FineReport報表系統和FineBI大數據分析平台等。

帆軟是商業智能和數據分析平台提供商,從報表工具到商業智能,有十多年的數據應用的底子,在這個領域很成熟,目前處於快速成長期,但是很低調,是一家有技術有實力而且對客戶很真誠的公司。

B. 兩台伺服器手動部署大數據平台

兩台伺服器手動部署大數據平台

##### 初始伺服器數量

- 2台centos7

##### 建議配置

- 32G(RAM)

- 24cpu

- 10t(SATA)

### 1.環境

- 系統centos7

- jdk:1.8.0_171(64位)

- zookeeper:3.4.8

- spark-2.1.0-bin-hadoop2.6

- kafka_2.10-0.10.2.1

- hadoop-2.7.0

- hbase-1.2.6

- elasticsearch-6.3.0

### 2.系統准備

對應的安裝包文件

elasticsearch-6.3.0.tar.gz

hadoop-2.7.0.tar.gz

hbase-1.2.6-bin.tar.gz

jdk-8u171-linux-x64.tar.gz

kafka_2.10-0.10.2.1.tgz

mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar

spark2.1.0hadoop2.6.tgz.gz

zookeeper-3.4.8.tar.gz

一、 配置好hosts

```

兩台設備的host

ip1 hello1

ip2 hello2

關閉防火牆

systemctl stop firewalld

systemctl disable firewalld

二、機器之間做好免密

1. 在hello1伺服器中,cd /root/

2. ssh-keygen -trsa  (全部按回車,走默認配置)

3. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4. chmod 600 ~/.ssh/authorized_keys

5. scp ~/.ssh/authorized_keys root@hello2:~/.ssh/

到此處時可以實現hello1機器上通過root賬戶登錄到hello2中,但從hello2中無法通過免密碼登錄到hello1伺服器。

6. 在hello2伺服器中,cd /root/

7. ssh-keygen -trsa  (全部按回車,走默認配置)

8. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

9. scp ~/.ssh/authorized_keys root@hello1:~/.ssh/

到此處時可以實現hello1機器與hello2機器之間免密碼互通

三、建立一個用戶操作elasticsearch用戶,後期所有安裝軟體放在該目錄下(當前使用root賬戶安裝)

1.添加用戶:

useradd -m -s /bin/bash es

2.為該用戶設置密碼:

password es

四、安裝JDK

如果系統自帶openjdk,先將其卸載掉!

1.創建jdk安裝路徑(hello1、hello2都執行)

執行: mkdir /usr/java

2.解壓縮jdk到安裝目錄

執行: tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/

3.添加環境變數

vi /etc/profile,添加以下語句

export JAVA_HOME=/usr/java/jdk1.8.0_171

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

執行:source /etc/profile

4.復制安裝包和數據目錄到hello2

scp  -r /usr/java/jdk1.8.0_171 hello2:/usr/java/

scp /etc/profile hello2:/etc/

登錄到hello2上,進入/home/es目錄

執行: source /etc/profile

5、驗證:

兩台伺服器上分別執行: java -version,查看輸出的版本是否與安裝的版本一致。

五、安裝mysql

1.如果centos系統中自帶mariadb,先卸載mariadb。

2.解壓mysql安裝包程序

執行:tar -xvf  mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar

3.依次安裝裡面rpm包組建

rpm -ivh mysql-community-common-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-devel-5.7.23-1.el7.x86_64.rpm

4.啟動MySQL

執行: systemctl start mysqld

5.登錄mysql伺服器

這種方式安裝好後,會再my.cnf文件中自動生成一個密碼,

執行:cat /var/log/mysqld.log | grep password, 出現如下記錄:

2017-09-15T01:58:11.863301Z 1 [Note] A temporary password is generated for root@localhost: m-NdrSG4ipuO

其中「m-NdrSG4ipuO」為mysql root賬戶的初始密碼。

登錄:

執行: mysql -uroot -p

輸入密碼: m-NdrSG4ipuO,即可進入mysql伺服器。

後續可自行修改root密碼,創建新賬戶等操作。

六、安裝zookeeper

1.解壓zookeeper安裝包到指定目錄(/home/es)

tar -zxvf zookeeper-3.4.8.tar.gz -C /home/es

2.創建程序軟連接

cd /home/es/

ln -s zookeeper-3.4.8 zookeeper

3.添加執行路徑環境

vi /etc/profile

添加

export ZOOKEEPER_HOME=/home/es/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

執行

source /etc/profile

4.修改配置文件

cd /home/es/zookeeper

cp conf/zoo_sample.cfg conf/zoo.cfg

在/home/data下創建對應的zookeeper數據存儲目錄

mkdir /home/data/zookeeper

mkdir /home/data/zookeeper/data

mkdir /home/data/zookeeper/log

修改配置文件:conf/zoo.cfg,添加以下語句

dataDir=/home/data/zookeeper/data

dataLogDir=/home/data/zookeeper/log

server.1=hello1:2888:3888

server.2=hello2:2888:3888

5.創建server表示符文件

touch /home/data/zookeeper/data/myid

echo echo 1>/home/data/zookeeper/data/myid

6.復制安裝包和數據目錄到hello2

scp -r /home/es/zookeeper-3.4.8 es@hello2:/home/es

scp -r /home/data/zookeeper es@hello2:/home/data

scp  /etc/profile es@hello2:/etc

登錄到hello2上

cd /home/es

ln -s zookeeper-3.4.8 zookeeper

echo echo 2>/home/data/zookeeper/data/myid

執行

source /etc/profile

7.兩台機器上分別執行

zkServer.sh start

8.驗證

jps | grep QuorumPeerMain,查看是否有該進程

zkServer.sh status,查看服務狀態

六、安裝kafka

1.解壓kafka安裝包到指定目錄(/home/es)

tar -zxvf kafka_2.10-0.10.2.1.tgz -C /home/es

2.創建程序軟連接

cd /home/es/

ln -s kafka_2.10-0.10.2.1 kafka

3.修改配置文件

備份:

cp config/server.properties config/server.properties.bak

創建kafka日誌目錄:

mkdir /home/data/kafka

mkdir /home/data/kafka/kafka-logs

修改:config/server.properties,具體對應欄位如下:

broker.id=0

delete.topic.enable=true

num.network.threads=10

num.io.threads=32

socket.send.buffer.bytes=102400

socket.receive.buffer.bytes=102400

socket.request.max.bytes=104857600

log.dirs=/home/data/kafka/kafka-logs

num.partitions=1

num.recovery.threads.per.data.dir=1

log.retention.hours=168

log.segment.bytes=1073741824

log.retention.check.interval.ms=300000

zookeeper.connect=hello1:2181,hello2:2181

zookeeper.connection.timeout.ms=6000

6.復制安裝包和數據目錄到hello2

scp -r /home/es/kafka_2.10-0.10.2.1 es@hello2:/home/es

scp -r /home/data/kafka es@hello2:/home/data

修改hello2中的配置

登錄到hello2上,cd /home/es/kafka,修改config/server.properties中broker.id值為2.

7.啟動kafka

在兩台機器的/home/es/kafka中,創建一個日誌存放目錄:mkdir start_log,執行以下命令:

nohup bin/kafka-server-start.sh config/server.properties > start_log/kafka_start_log 2>&1 &

8.驗證運行情況

jps | grep Kafka,查看進程

通過kafka命令查看topic。

七、安裝hadoop

1.解壓hadoop安裝包到指定目錄(/home/es)

tar -zxvf hadoop-2.7.0.tar.gz -C /home/es

2.創建程序軟連接

cd /home/es/

ln -s hadoop-2.7.0 hadoop

3.創建數據存放目錄

mkdir /home/data/hadoop

mkdir /home/data/hadoop/tmp

mkdir /home/data/hadoop/dfs

mkdir /home/data/hadoop/dfs/data

mkdir /home/data/hadoop/dfs/name

4.修改配置文件

修改/home/es/hadoop/etc/hadoop/core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://hello1:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/data/hadoop/tmp</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131702</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/hdfs-site.xml

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/data/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/data/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hello1:9001</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/mapred-site.xml

<configuration>

<property>

<name>maprece.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>maprece.jobhistory.address</name>

<value>hello1:10020</value>

</property>

<property>

<name>maprece.jobhistory.webapp.address</name>

<value>hello1:19888</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>maprece_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.auxservices.maprece.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>hello1:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheler.address</name>

<value>hello1:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hello1:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>hello1:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hello1:8088</value>

</property>

<property>

<name>yarn.nodemanager.resource.memory-mb</name>

<value>768</value>

</property>

</configuration>

配置/home/es/hadoop/etc/hadoop目錄下hadoop-env.sh、yarn-env.sh的JAVA_HOME(不設置的話,啟動不了)

export JAVA_HOME=/usr/java/jdk1.8.0_171

配置/home/es/hadoop/etc/hadoop目錄下的slaves,刪除默認的localhost,增加2個從節點,

hello1

hello2

5、將配置好的Hadoop復制到各個節點對應位置上,通過scp傳送

scp  -r /home/es/hadoop-2.7.0 hello2:/home/es/

scp  -r /home/data/hadoop hello2:/home/data/

登錄到hello2上,進入/home/es目錄

執行: ln -s hadoop-2.7.0 hadoop

6、格式化nameNode及啟動hadoop

在主伺服器啟動hadoop,從節點會自動啟動,進入/home/es/hadoop目錄

初始化,輸入命令,bin/hdfs namenode -format

全部啟動sbin/start-all.sh,也可以分開sbin/start-dfs.sh、sbin/start-yarn.sh

輸入命令,jps,可以看到相關信息

7、驗證hadoop運行情況

瀏覽器打開http://hello1:8088/

瀏覽器打開http://hello1:50070/

8、添加hadoop環境變數到/etc/profile

export HADOOP_HOME=/home/es/hadoop export PATH=$PATH:$HADOOP_HOME/sbin

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

執行: source /etc/profile

八、安裝Hbase

1.解壓hbase安裝包到指定目錄(/home/es)

tar -zxvf hbase-1.2.6-bin.tar.gz -C /home/es

2.創建程序軟連接

cd /home/es/

ln -s hbase-1.2.6 hbase

3.添加hbase環境變數到/etc/profile

export  HBASE_HOME=/home/es/hbase

export  PATH=$HBASE_HOME/bin:$PATH

執行:source /etc/profile

4.修改HBASE配置文件

vi /home/es/hbase/conf/hbase-env.sh

增加: export JAVA_HOME=/usr/java/jdk1.8.0_171

修改: export HBASE_MANAGES_ZK=false

vi /home/es/hbase/conf/hbase-site.xml

修改類容:

<configuration>

<property>

<name>hbase.rootdir</name> <!-- hbase存放數據目錄 -->

<value>hdfs://hello1:9000/hbase/hbase_db</value>

<!-- 埠要和Hadoop的fs.defaultFS埠一致-->

</property>

<property>

<name>hbase.cluster.distributed</name> <!-- 是否分布式部署 -->

<value>true</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name> <!-- list of  zookooper -->

<value>hello1,hello2</value>

</property>

<property><!--zookooper配置、日誌等的存儲位置 -->

<name>hbase.zookeeper.property.dataDir</name>

<value>/home/es/hbase/zookeeper</value>

</property>

</configuration>

配置regionservers,vi /home/es/hbase/conf/regionservers

去掉默認的localhost,加入hello1、hello2

5、將配置好的hbase復制到各個節點對應位置上,通過scp傳送

scp  -r /home/es/hbase-1.2.6 hello2:/home/es/

scp /etc/profile hello2:/etc/

登錄到hello2上,進入/home/es目錄

執行: ln -s hbase-1.2.6 hbase

source /etc/profile

6、hbase的啟動

hello1中執行: start-hbase.sh

7、驗證hbase運行情況

輸入jps命令查看進程是否啟動成功,若 hello1上出現HMaster、HRegionServer、HQuormPeer,hello2上出現HRegionServer、HQuorumPeer,就是啟動成功了。

輸入hbase shell 命令 進入hbase命令模式,輸入status命令,查看運行狀態。

在瀏覽器中輸入http://hello1:16010就可以在界面上看到hbase的配置

注意事項:

正常安裝後,創建普通不帶壓縮表可以正常讀寫,當使用snappy進行壓縮創建表時,該表無法再regionServer中啟動!

解決方法:

1.在hbase-site.xml文件中添加一下屬性

<property>

                <name>hbase.regionserver.codecs</name>

                <value>snappy</value>

        </property>

2.每台機器中將hadoop_native.zip解壓縮到hbase安裝目錄的lib下,執行 unzip hadoop_native.zip $HBASE_HOME/lib/

3.在$HBASE_HOME/conf/hbase-env.sh 中添加:export HBASE_LIBRARY_PATH=/home/es/hbase/lib/native

4.重啟Hbase服務即可

九、Spark安裝

1.解壓hbase安裝包到指定目錄(/home/es)

tar -zxvf spark2.1.0hadoop2.6.tgz.gz -C /home/es

2.創建程序軟連接

cd /home/es/

ln -s spark2.1.0hadoop2.6 spark

3.修改配置文件

mv /home/es/spark/conf/spark-env.sh.template  /home/es/spark/conf/spark-env.sh

vi /home/es/spark/conf/spark-env.sh

修改對應配置:

export JAVA_HOME=/usr/java/jdk1.8.0_171

export SPARK_MASTER_IP=hello1

export SPARK_MASTER_PORT=7077

export SPARK_LOCAL_IP=hello1

修改slaves文件

mv /home/es/spark/conf/slaves.template  /home/es/spark/conf/slaves

vi /home/es/spark/conf/slaves

將localhost修改成:

hello1

hello2

5、將配置好的hbase復制到各個節點對應位置上,通過scp傳送

scp  -r /home/es/spark2.1.0hadoop2.6 hello2:/home/es/

登錄到hello2上,進入/home/es目錄

執行: ln -s spark2.1.0hadoop2.6 spark

在hello2中修改/home/es/spark/conf/spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_171

export SPARK_MASTER_IP=hello1

export SPARK_MASTER_PORT=7077

export SPARK_LOCAL_IP=hello2

6、啟動spark

cd /home/es/spark

執行: sbin/start-all.sh

7、檢測執行結果

jps | grep Worker,看是否有相應的進程。

十、安裝elasticsearch

由於elasticsearch,用root賬戶無法啟動,故該組件用es賬戶安裝

1、切換到es賬戶: su es

2、解壓hbase安裝包到指定目錄(/home/es)

tar -zxvf elasticsearch-6.3.0.tar.gz -C /home/es/

創建程序軟連接

cd /home/es/

ln -s elasticsearch-6.3.0 elasticsearch

3、修改配置文件

vi /home/es/elasticsearch/config/elasticsearch.yml

# 集群的名字 

cluster.name: crrc-health

# 節點名字 

node.name: node-1 

# 數據存儲目錄(多個路徑用逗號分隔) 

path.data: /home/data1/elasticsearch/data

# 日誌目錄 

path.logs: /home/data1/elasticsearch/logs

#本機的ip地址

network.host: hello1 

#設置集群中master節點的初始列表,可以通過這些節點來自動發現新加入集群的節點

discovery.zen.ping.unicast.hosts: ["hello1", "hello2"]

# 設置節點間交互的tcp埠(集群),(默認9300) 

transport.tcp.port: 9300

# 監聽埠(默認) 

http.port: 9200

# 增加參數,使head插件可以訪問es 

http.cors.enabled: true

http.cors.allow-origin: "*"

4、創建elasticsearch數據和存儲目錄

mkdir /home/data1/elasticsearch

mkdir /home/data1/elasticsearch/data

mkdir /home/data1/elasticsearch/logs

5、修改linux系統的默認硬限制參數

切換至root用戶: su root

vim /etc/security/limits.conf

添加:

es soft nofile 65536

es hard nofile 65536

退出es登錄,重新用es賬戶登錄,使用命令:ulimit -Hn查看硬限制參數。

vi /etc/sysctl.conf

添加:

vm.max_map_count=655360

執行:

sysctl -p

6、將配置好的elasticsearch復制到各個節點對應位置上,通過scp傳送

scp  -r /home/es/elasticsearch-6.3.0 hello2:/home/es/

scp  -r /home/data1/elasticsearch hello2:/home/data1/

登錄到hello2上,進入/home/es目錄

執行: ln -s elasticsearch-6.3.0 elasticsearch-6.3.0

在hello2中修改/home/es/elasticsearch/config/elasticsearch.yml

修改: network.host: hello2

7、啟動elasticsearch

使用es賬戶

執行:

/home/es/elasticsearch/bin/elasticsearch -d

8、驗證

控制台中輸入:curl http://hello1:9200

C. 從業大數據方向,需要掌握哪些技能,具體學習路線是什麼

你好,大數據學習路線有8個階段的內容,你可以按照順序學習,祝你早日學有所成!

大數據學習路線

D. 本人想自學大數據hadoop,有那種講得比較全面詳細的大數據視頻教程資源嗎

現在大數據人才的缺口很大,但是從事大數據開發是需要一定的資料庫基礎和編程基礎回的,而且大數據答的教學視頻或者書籍目前來說適合入門的非常少,課程也非常繁雜。自學的難度不小,如果你的邏輯思維能力足夠好的話可以先看尚硅 谷的穀粒學院大數據Hadoop教程。

E. 大數據都需要學習什麼

大數據專業是一項技術的學習方向,該專業是交叉性學科,學習內容涵蓋較廣,其中以統計學、數學、計算機為三大支撐柱學科,並以生物、醫學、環境科學、經濟學、管理學等作為輔助拓展。除此之外還需要學習數據採集、數據分析、數據處理軟體及計算機編程語言等。不同的工作崗位與方向,需要從事的工作也不是一樣的,因此催生出了許多職位。較為常見的大數據發展方向是大數據開發、大數據分析。

回過頭來我們看看學習大數據需要的基礎

1、java SE、EE(SSM)
90%的大數據框架都是Java寫的
2、MySQL
SQL on Hadoop
3、Linux
大數據的框架安裝在Linux操作系統上

- 需要學什麼

大數據離線分析

一般處理T+1數據(T:可能是1天、一周、一個月、一年)
a、Hadoop :一般不選用最新版本,踩坑難解決
(common、HDES、MapRece、YARN)
環境搭建、處理數據的思想
b、Hive:大數據的數據倉庫
通過寫SQL對數據進行操作,類似於MySQL資料庫的sql
c、HBase:基於HDFS的NOSQL資料庫
面向列存儲
d、協作框架:
sqoop(橋梁:HDFS《==》RDBMS)
flume:搜集日誌文件中的信息
e、調度框架
anzkaban
了解:crotab(Linux自帶)
zeus(Alibaba)
Oozie(cloudera)
f、前沿框架擴展:
kylin、impala、ElasticSearch(ES)


大數據實時分析

以spark框架為主
Scala:OOP(面向對象程序設計)+FP(函數是程序設計)
sparkCore:類比MapRece
sparkSQL:類比hive
sparkStreaming:實時數據處理
kafka:消息隊列
前沿框架擴展:flink
阿里巴巴:blink

大數據機器學習

spark MLlib:機器學習庫
pyspark編程:Python和spark的結合
推薦系統
python數據分析
python機器學習

F. 入門大數據需要學習什麼內容

作為一名零基礎學習者,請不要將大數據開發看做一門與Java、python等相似的IT語言,大數據更像是一門技術,其所包含的內容相對比較多。在正式開始學習之前,可以買一些大數據相關書籍或者找一些網上的學習資料,先建立對行業以及對大數據相關職位的了解。

比如,大數據分為哪些發展方向,不同的發展方向對應哪些發展職位,各個職位的發展所要求的核心技能點是什麼,企業對於大數據人才的需求是什麼樣的,了解清楚了這些,才能真正考慮清楚,學什麼怎麼學。

以大數據開發來說,其中涉及到的主要是大數據應用開發,要求一定的編程能力,在學習階段,主要需要學習掌握大數據技術框架,包括hadoop、hive、oozie、flume、hbase、kafka、scala、spark等等……

以大數據分析來說,有主攻業務運營方面的數據分析師,也有主攻機器學習、深度學習等的數據挖掘師,具體到其中的各個職位,更是有著更加具體的技能要求,那麼在學習階段就要先做好相關的准備了。

關於入門大數據需要學習什麼內容,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

G. 大數據架構師崗位的主要職責概述

大數據架構師崗位的主要職責概述 篇1

職責:

1、負責大數據平台及BI系統框架設計、規劃、技術選型,架構設計並完成系統基礎服務的開發;

2、負責海量埋點規則、SDK標准化、埋點數據採集、處理及存儲,業務數據分布存儲、流式/實時計算等應用層架構搭建及核心代碼實現;

3、開發大數據平台的核心代碼,項目敏捷開發流程管理,完成系統調試、集成與實施,對每個項目周期技術難題的解決,保證大數據產品的上線運行;

4、負責大數據平台的架構優化,代碼評審,並根據業務需求持續優化數據架構,保證產品的可靠性、穩定性;

5、指導開發人員完成數據模型規劃建設,分析模型構建及分析呈現,分享技術經驗;

6、有效制定各種突發性研發技術故障的應對預案,有清晰的隱患意識;

7、深入研究大數據相關技術和產品,跟進業界先進技術;

任職要求

1、統計學、應用數學或計算機相關專業大學本科以上學歷;

2、熟悉互聯網移動端埋點方法(點擊和瀏覽等行為埋點),無埋點方案等,有埋點SDK獨立開發經驗者優選;

3、熟悉Hadoop,MR/MapRece,Hdfs,Hbase,Redis,Storm,Python,zookeeper,kafka,flinkHadoop,hive,mahout,flume,ElasticSearch,KafkaPython等,具備實際項目設計及開發經驗;

4、熟悉數據採集、數據清洗、分析和建模工作相關技術細節及流程

5、熟悉Liunx/Unix操作系統,能熟練使用shell/perl等腳本語言,熟練掌握java/python/go/C++中一種或多種編程語言

6、具備一定的演算法能力,了解機器學習/深度學習演算法工具使用,有主流大數據計算組件開發和使用經驗者優先

7、熟悉大數據可視化工具Tableau/echarts

8、具有較強的執行力,高度的責任感、很強的學習、溝通能力,能夠在高壓下高效工作;

大數據架構師崗位的主要職責概述 篇2

職責:

根據大數據業務需求,設計大數據方案及架構,實現相關功能;

搭建和維護大數據集群,保證集群規模持續、穩定、高效平穩運行;

負責大數據業務的設計和指導具體開發工作;

負責公司產品研發過程中的數據及存儲設計;

針對數據分析工作,能夠完成和指導負責業務數據建模。

職位要求:

計算機、自動化或相關專業(如統計學、數學)本科以上學歷,3年以上大數據處理相關工作經驗;

精通大數據主流框架(如Hadoop、hive、Spark等);

熟悉MySQL、NoSQL(MongoDB、Redis)等主流資料庫,以及rabbit MQ等隊列技術;

熟悉hadoop/spark生態的原理、特性且有實戰開發經驗;

熟悉常用的數據挖掘演算法優先。

大數據架構師崗位的主要職責概述 篇3

職責:

1、大數據平台架構規劃與設計;

2、負責大數據平台技術框架的選型與技術難點攻關;

3、能夠獨立進行行業大數據應用的整體技術框架、業務框架和系統架構設計和調優等工作,根據系統的業務需求,能夠指導開發團隊完成實施工作;

4、負責數據基礎架構和數據處理體系的升級和優化,不斷提升系統的穩定性和效率,為相關的業務提供大數據底層平台的支持和保證;

5、培養和建立大數據團隊,對團隊進行技術指導。

任職要求:

1、計算機相關專業的背景專業一類院校畢業本科、碩士學位,8年(碩士5年)以上工作經驗(至少擁有3年以上大數據項目或產品架構經驗);

2、精通Java,J2EE相關技術,精通常見開源框架的架構,精通關系資料庫系統(Oracle MySQL等)和noSQL數據存儲系統的原理和架構;

3、精通SQL和Maprece、Spark處理方法;

4、精通大數據系統架構,熟悉業界數據倉庫建模方法及新的建模方法的發展,有DW,BI架構體系的專項建設經驗;

5、對大數據體系有深入認識,熟悉Kafka、Hadoop、Hive、HBase、Spark、Storm、greenplum、ES、Redis等大數據技術,並能設計相關數據模型;

6、很強的學習、分析和解決問題能力,可以迅速掌握業務邏輯並轉化為技術方案,能獨立撰寫項目解決方案、項目技術文檔;

7、具有較強的內外溝通能力,良好的團隊意識和協作精神;

8、機器學習技術、數據挖掘、人工智慧經驗豐富者優先考慮;

9、具有能源電力行業工作經驗者優先。

大數據架構師崗位的主要職責概述 篇4

職責:

1.參與公司數據平台系統規劃和架構工作,主導系統的架構設計和項目實施,確保項目質量和關鍵性能指標達成;

2.統籌和推進製造工廠內部數據系統的構建,搭建不同來源數據之間的邏輯關系,能夠為公司運營診斷、運營效率提升提供數據支持;

3.負責數據系統需求對接、各信息化系統數據對接、軟體供應商管理工作

5.根據現狀制定總體的數據治理方案及數據體系建立,包括數據採集、接入、分類、開發標准和規范,制定全鏈路數據治理方案;深入挖掘公司數據業務,超強的數據業務感知力,挖掘數據價值,推動數據變現場景的落地,為決策及業務賦能;

6.定義不同的數據應用場景,推動公司的數據可視化工作,提升公司數據分析效率和數據價值轉化。

任職要求:

1.本科以上學歷,8年以上軟體行業從業經驗,5年以上大數據架構設計經驗,熟悉BI平台、大數據系統相關技術架構及技術標准;

2.熟悉數據倉庫、熟悉數據集市,了解數據挖掘、數據抽取、數據清洗、數據建模相關技術;

3.熟悉大數據相關技術:Hadoop、Hive、Hbase、Storm、Flink、Spark、Kafka、RabbitMQ;

4.熟悉製造企業信息化系統及相關資料庫技術;

5.具備大數據平台、計算存儲平台、可視化開發平台經驗,具有製造企業大數據系統項目開發或實施經驗優先;

6.對數據敏感,具備優秀的業務需求分析和報告展示能力,具備製造企業數據分析和數據洞察、大數據系統的架構設計能力,了解主流的報表工具或新興的前端報表工具;

7.有較強的溝通和組織協調能力,具備結果導向思維,有相關項目管理經驗優先。

大數據架構師崗位的.主要職責概述 篇5

職責:

1.負責產品級業務系統架構(如業務數據對象識別,數據實體、數據屬性分析,數據標准、端到端數據流等)的設計與優化。協助推動跨領域重大數據問題的分析、定位、解決方案設計,從架構設計上保障系統高性能、高可用性、高安全性、高時效性、分布式擴展性,並對系統質量負責。

2.負責雲數據平台的架構設計和數據處理體系的優化,推動雲數據平台建設和持續升級,並制定雲數據平台調用約束和規范。

3.結合行業應用的需求負責數據流各環節上的方案選型,主導雲數據平台建設,參與核心代碼編寫、審查;數據的統計邏輯回歸演算法、實時交互分析;數據可視化方案等等的選型、部署、集成融合等等。

4.對雲數據平台的關注業內技術動態,持續推動平台技術架構升級,以滿足公司不同階段的數據需求。

任職要求:

1.熟悉雲計算基礎平台,包括Linux(Ubuntu/CentOS)和KVM、OpenStack/K8S等基礎環境,熟悉控制、計算、存儲和網路;

2.掌握大型分布式系統的技術棧,如:CDN、負載均衡、服務化/非同步化、分布式緩存、NoSQL、資料庫垂直及水平擴容;熟悉大數據應用端到端的相關高性能產品。

3.精通Java,Python,Shell編程語言,精通SQL、NoSQL等資料庫增刪改查的操作優化;

4.PB級別實戰數據平台和生產環境的實施、開發和管理經驗;

5.熟悉Docker等容器的編排封裝,熟悉微服務的開發和日常調度;

6.計算機、軟體、電子信息及通信等相關專業本科以上學歷,5年以上軟體工程開發經驗,2年以上大數據架構師工作經驗。

大數據架構師崗位的主要職責概述 篇6

職責描述:

1、負責集團大數據資產庫的技術架構、核心設計方案,並推動落地;

2、帶領大數據技術團隊實現各項數據接入、數據挖掘分析及數據可視化;

3、新技術預研,解決團隊技術難題。

任職要求:

1、在技術領域有5年以上相關經驗,3年以上的架構設計或產品經理經驗;

2、具有2年以上大數據產品和數據分析相關項目經驗;

3、精通大數據分布式系統(hadoop、spark、hive等)的架構原理、技術設計;精通linux系統;精通一門主流編程語言,java優先。

大數據架構師崗位的主要職責概述 篇7

崗位職責:

1、基於公司大數據基礎和數據資產積累,負責大數據應用整體技術架構的設計、優化,建設大數據能力開放平台;負責大數據應用產品的架構設計、技術把控工作。

2、負責制定大數據應用系統的數據安全管控體系和數據使用規范。

3、作為大數據技術方案到產品實現的技術負責人,負責關鍵技術點攻堅工作,負責內部技術推廣、培訓及知識轉移工作。

4、負責大數據系統研發項目任務規劃、整體進度、風險把控,有效協同團隊成員並組織跨團隊技術協作,保證項目質量與進度。

5、負責提升產品技術團隊的技術影響力,針對新人、普通開發人員進行有效輔導,幫助其快速成長。

任職資格:

1、計算機、數學或相關專業本科以上學歷,5—20xx年工作經驗,具有大型系統的技術架構應用架構數據架構相關的實踐工作經驗。

2、有分布式系統分析及架構設計經驗,熟悉基於計算集群的軟體系統架構和實施經驗。

3、掌握Hadoop/Spark/Storm生態圈的主流技術及產品,深入了解Hadoop/Spark/Storm生態圈產品的工作原理及應用場景。

4、掌握Mysql/Oracle等常用關系型資料庫,能夠對SQL進行優化。

5、熟悉分布式系統基礎設施中常用的技術,如緩存(Varnish、Memcache、Redis)、消息中間件(Rabbit MQ、Active MQ、Kafka、NSQ)等;有實踐經驗者優先。

6、熟悉Linux,Java基礎扎實,至少3—5年以上Java應用開發經驗,熟悉常用的設計模式和開源框架。

大數據架構師崗位的主要職責概述 篇8

崗位職責:

1、負責公司大數據平台架構的技術選型和技術難點攻關工作;

2、依據行業數據現狀和客戶需求,完成行業大數據的特定技術方案設計與撰寫;

3、負責研究跟進大數據架構領域新興技術並在公司內部進行分享;

4、參與公司大數據項目的技術交流、解決方案定製以及項目的招投標工作;

5、參與公司大數據項目前期的架構設計工作;

任職要求:

1、計算機及相關專業本科以上,5年以上數據類項目(數據倉庫、商務智能)實施經驗,至少2年以上大數據架構設計和開發經驗,至少主導過一個大數據平台項目架構設計;

2、精通大數據生態圈的技術,包括但不限於MapRece、Spark、Hadoop、Kafka、Mongodb、Redis、Flume、Storm、Hbase、Hive,具備數據統計查詢性能優化能力。熟悉星環大數據產品線及有過產品項目實施經驗者優先;

3、優秀的方案撰寫能力,思路清晰,邏輯思維強,能夠根據業務需求設計合理的解決方案;

4、精通ORACLE、DB2、mySql等主流關系型資料庫,熟悉數據倉庫建設思路和數據分層架構思想;

5。熟練掌握java、R、python等1—2門數據挖掘開發語言;

6。熟悉雲服務平台及微服務相關架構思想和技術路線,熟悉阿里雲或騰訊雲產品者優先;

7、有煙草或製造行業大數據解決方案售前經驗者優先;

8、能適應售前支持和項目實施需要的短期出差;

大數據架構師崗位的主要職責概述 篇9

崗位職責:

1、負責相關開源系統/組件的性能、穩定性、可靠性等方面的深度優化;

2、負責解決項目上線後生產環境的各種實際問題,保障大數據平台在生產上的安全、平穩運行;

3、推動優化跨部門的業務流程,參與業務部門的技術方案設計、評審、指導;

4、負責技術團隊人員培訓、人員成長指導。

5、應項目要求本月辦公地址在錦江區金石路316號新希望中鼎國際辦公,月底項目結束後在總部公司辦公

任職要求:

1、熟悉linux、JVM底層原理,能作為技術擔當,解決核心技術問題;

2、3年以上大數據平台項目架構或開發經驗,對大數據生態技術體系有全面了解,如Yarn、Spark、HBase、Hive、Elasticsearch、Kafka、PrestoDB、Phoenix等;

3、掌握git、maven、gradle、junit等工具和實踐,注重文檔管理、注重工程規范優先;

4、熟悉Java後台開發體系,具備微服務架構的項目實施經驗,有Dubbo/Spring cloud微服務架構設計經驗優先;

5、性格開朗、善於溝通,有極強的技術敏感性和自我驅動學習能力,注重團隊意識。

大數據架構師崗位的主要職責概述 篇10

職責描述:

1、負責大數據平台框架的規劃設計、搭建、優化和運維;

2、負責架構持續優化及系統關鍵模塊的設計開發,協助團隊解決開發過程中的技術難題;

3、負責大數據相關新技術的調研,關注大數據技術發展趨勢、研究開源技術、將新技術應用到大數據平台,推動數據平台發展;

4、負責數據平台開發規范制定,數據建模及核心框架開發。

任職要求:

1、計算機、數學等專業本科及以上學歷;

2、具有5年及以上大數據相關工作經驗;

3、具有扎實的大數據和數據倉庫的理論功底,負責過大數據平台或數據倉庫設計;

4、基於hadoop的大數據體系有深入認識,具備相關產品(hadoop、hive、hbase、spark、storm、 flume、kafka、es等)項目應用研發經驗,有hadoop集群搭建和管理經驗;

5、熟悉傳統數據倉庫數據建模,etl架構和開發流程,使用過kettle、talend、informatic等至少一種工具;

6、自驅力強、優秀的團隊意識和溝通能力,對新技術有好奇心,學習能力和主動性強,有鑽研精神,充滿激情,樂於接受挑戰;

H. 大數據的主要學習內容有哪些

大數據主要的學習內容,看下圖

大數據學習內容

按照順序學習就可以了,希望你早日學有所成。

閱讀全文

與大數據eshadoop相關的資料

熱點內容
深宮曲文件夾是哪個 瀏覽:618
蘋果u盤修復工具哪個好用 瀏覽:124
微信動態表情包搞笑 瀏覽:436
可以去哪裡找編程老師問問題 瀏覽:608
win10lol全屏 瀏覽:25
qq圖片動態動漫少女 瀏覽:122
sai繪圖教程視頻 瀏覽:519
如何分析載入減速法數據 瀏覽:672
手機怎麼免費轉換pdf文件格式 瀏覽:668
在哪個網站可以駕照年檢 瀏覽:89
iphone可以播放ape嗎 瀏覽:991
matlabp文件能破解嗎 瀏覽:817
四川省高三大數據考試是什麼 瀏覽:457
導出打開java文件 瀏覽:671
win10藍屏是硬碟壞了么 瀏覽:46
沈陽哪裡適合學編程 瀏覽:811
django19常用版本 瀏覽:521
三國志11保存在哪個文件夾 瀏覽:88
iphone4s加速 瀏覽:108
編程內存和顯卡哪個重要 瀏覽:672

友情鏈接