1. 大數據基礎平台有哪些
Transwarp Data Hub
星環大數據基礎平台(TDH) 是星環自主研發的一站式多模型大數據基礎平台,包括多個大數據存儲與分析產品,能夠存儲 PB 級別的海量數據,可以處理包括關系表、文本、時空地理、圖數據、文檔、時序、圖像等在內的多種數據格式,提供高性能的查詢搜索、實時分析、統計分析、預測性分析等數據分析功能。目前 TDH 已經在政府、金融、能源、製造業等十多個行業內落地,支撐如金融風控與營銷、智慧製造、城市大腦、智慧交通等多種核心行業應用。 網路上面都有。
2. 大數據基礎平台有哪些
國內大數據平台有:
1、星環Transwarp。星環科技是一個以hadoop生態系統為基礎的大型數據平台公司,被Gartner魔力象限列入名單過,它的潛力不容忽視,它在技術上對hadoop不穩定的部分進行了優化,功能得到了改進,提供了hadoop的企業大數據引擎等。
2、TalkingData。TalkingData屬於獨立的第三方品牌。它的產品與之服務涵蓋了移動應用數據統計、公共數據查詢、綜合數據管理等多款極具針對性的產品及服務。在銀行、互聯網、電商行業有廣泛的數據服務應用。
3、友盟+。友盟+是第一個第三方的全域大數據服務供應商,可以全面覆蓋PC機、無線路由器等多種設備。為企業提供基礎統計、操作分析、數據決策等全業務鏈的數據應用解決方案,幫助企業進行數據化操作和管理。
4、網易猛獁。網易猛獁大數據平台提供了海量應用開發的一站式數據管理平台,其中還包含了大數據開發套件和hadoop發布。該套件主要包括數據開發、任務操作、自助分析、以及多租戶管理等。
5、GrowingIO。GrowingIO是一種基於網際網路用戶行為的數據分析產品,具有無埋點數據採集技術,可通過行為數據,如網頁或APP的瀏覽軌跡、點擊記錄、滑鼠滑動軌跡等行為數據,對用戶行為數據,進行實時的分析,用於優化產品體驗,實現精益化操作。
6、神策數據。神策數據原理也與GrowingIO類似。但是它在技術上提供開放的查詢API和完整的SQL介面,同時與MapRece和Spark等計算引擎無縫融合,隨時以最高效的方式來訪問干凈、規范的數據。
3. 如何搭建大數據雲平台具備要素高並發
你好,您應該是景區或者文旅部門機構,這個問題深入展開不是一句兩句能講清楚地哈,簡回單說一下目前現狀答:目前全國范圍內搭建的規范還沒有,各地從金額來說幾千萬到幾十萬的方式都有,金額特別大的項目大概率是基建和裝修及硬體采買。如果是一個基礎設施完善的機構,基本是信息集成,包括票務、攝像、投訴、客流、停車場管理、廣播通信(一般在應急平台上)、口碑等;如果基礎設施落後,個人建議也沒有必要花太多錢去搞基建,你建設的目的是為了應用,直接找相應的數據服務公司就好了,自己又不用培養數據方面的人才,直接使用數據服務很方便,每年付費也比一下投入大量資金用於基建只有一個空殼子要好,現在國內科技公司越來下沉行業,大量的案例應用服務基本滿足大部分客戶需求了,沒必要自己照搬一套在自己本地。據我了解網路騰訊阿里都有文旅服務的部門,也有專注做文旅數據市場服務的,好像叫海鰻,他們海字輩的企業一堆,都針對不同行業。我作為文旅管委會的從業者,還是建議直接買服務,我們自己景區建的中心都沒有數據,領導也走了,晾在那每人管了,太浪費了。
4. 大數據開發工具有哪些
1. Apache Hive
Hive是一個建立在Hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。 Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
2. Apache Spark
Apache Spark是Hadoop開源生態系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。
3. Jaspersoft BI 套件
Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業領導者發現Jaspersoft軟體是一流的, 許多企業已經使用它來將SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連接配置單元來替代HBase。
4. Keen IO
Keen IO是個強大的移動應用分析工具。開發者只需要簡單到一行代碼, 就可以跟蹤他們想要的關於他們應用的任何信息。開發者接下來只需要做一些Dashboard或者查詢的工作就可以了。
5. Mortar Data
Mortar Data是專為開發者打造的Hadoop開發平台,它用Pig和Python的組合替代了MapRece以便開發者能簡單地編寫Hadoop管道(Pipeline)。
6. Placed Analytics
利用腳本語言以及API, PlacedAnalytics能夠提供針對移動和網路應用的詳細用戶行為分析。包括, 用戶使用時間和地理位置信息。 這些可以幫助開發者的應用更好地吸引廣告商, 也可以幫助開發者對自己的應用進行改善。
7. Ingres Corp
它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實現了擴展。這些發展分別導致了Actian Vector和Actian Matrix的創建。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。
8. Talend Open Studio
Talend是一個統一的平台,它通過提供一個統一的,跨企業邊界生命周期管理的環境,使數據管理和應用更簡單便捷。這種設計可以幫助企業構建靈活、高性能的企業架構,在次架構下,集成並啟用百分之百開源服務的分布式應用程序變為可能。
9. Cloudera
Cloudera正在努力為開源Hadoop,提供支持,Hadoop可以作為目標數據倉庫,高效的數據平台,或現有數據倉庫的ETL來源。企業規模可以用作集成Hadoop與傳統數據倉庫的基礎。 Cloudera致力於成為數據管理的「重心」。
10. Pentaho Business Analytics
Pentaho的工具可以連接到NoSQL資料庫,有很多內置模塊,可以把它們拖放到一個圖片上, 然後將它們連接起來。
5. 大數據平台CDH6.2.0部署
1、yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server
2、cd /opt/cloudera/parcel-repo
(1)將第一部分下載的CDH Parcel文件(CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcelCDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel.sha256和manifest.json)上傳至該目錄下
(2)mv CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel.sha256 CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel.sha
(3)chown -R cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo/*
3、將mysql-connector-java-5.1.47-bin.jar文件上傳至CM Server節點上的/usr/share/java/目錄下並重命名為mysql-connector-java.jar
4、安裝 mysql(安裝過程略),並創建相應庫
mysql> CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
mysql> CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
mysql> CREATE DATABASE rman DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
mysql> CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
mysql> GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY 'scm';
mysql> GRANT ALL ON amon.* TO 'amon'@'%' IDENTIFIED BY 'amon';
mysql> GRANT ALL ON rman.* TO 'rman'@'%' IDENTIFIED BY 'rman';
mysql> GRANT ALL ON metastore.* TO 'hive'@'%' IDENTIFIED BY 'hive';
mysql> FLUSH PRIVILEGES;
mysql資料庫與CM Server是同一台主機
執行命令:/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm scm
mysql資料庫與CM Server不在同一台主機上
執行命令:/opt/cloudera/cm/schema/scm_prepare_database.sh mysql -h --scm-host scm scm
5、啟動cloudera-scm-server
systemctl start cloudera-scm-server
6、登錄頁面進行配置
ip:7180
6. 大數據平台是什麼什麼時候需要大數據平台如何建立大數據平台
首先我們要了解Java語言和linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據基礎。
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
7. 兩台伺服器手動部署大數據平台
兩台伺服器手動部署大數據平台
##### 初始伺服器數量
- 2台centos7
##### 建議配置
- 32G(RAM)
- 24cpu
- 10t(SATA)
### 1.環境
- 系統centos7
- jdk:1.8.0_171(64位)
- zookeeper:3.4.8
- spark-2.1.0-bin-hadoop2.6
- kafka_2.10-0.10.2.1
- hadoop-2.7.0
- hbase-1.2.6
- elasticsearch-6.3.0
### 2.系統准備
對應的安裝包文件:
elasticsearch-6.3.0.tar.gz
hadoop-2.7.0.tar.gz
hbase-1.2.6-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
kafka_2.10-0.10.2.1.tgz
mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar
spark2.1.0hadoop2.6.tgz.gz
zookeeper-3.4.8.tar.gz
一、 配置好hosts
```
兩台設備的host
ip1 hello1
ip2 hello2
關閉防火牆
systemctl stop firewalld
systemctl disable firewalld
二、機器之間做好免密
1. 在hello1伺服器中,cd /root/
2. ssh-keygen -trsa (全部按回車,走默認配置)
3. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
4. chmod 600 ~/.ssh/authorized_keys
5. scp ~/.ssh/authorized_keys root@hello2:~/.ssh/
到此處時可以實現hello1機器上通過root賬戶登錄到hello2中,但從hello2中無法通過免密碼登錄到hello1伺服器。
6. 在hello2伺服器中,cd /root/
7. ssh-keygen -trsa (全部按回車,走默認配置)
8. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
9. scp ~/.ssh/authorized_keys root@hello1:~/.ssh/
到此處時可以實現hello1機器與hello2機器之間免密碼互通
三、建立一個用戶操作elasticsearch用戶,後期所有安裝軟體放在該目錄下(當前使用root賬戶安裝)
1.添加用戶:
useradd -m -s /bin/bash es
2.為該用戶設置密碼:
password es
四、安裝JDK
如果系統自帶openjdk,先將其卸載掉!
1.創建jdk安裝路徑(hello1、hello2都執行)
執行: mkdir /usr/java
2.解壓縮jdk到安裝目錄
執行: tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/
3.添加環境變數
vi /etc/profile,添加以下語句
export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
執行:source /etc/profile
4.復制安裝包和數據目錄到hello2
scp -r /usr/java/jdk1.8.0_171 hello2:/usr/java/
scp /etc/profile hello2:/etc/
登錄到hello2上,進入/home/es目錄
執行: source /etc/profile
5、驗證:
兩台伺服器上分別執行: java -version,查看輸出的版本是否與安裝的版本一致。
五、安裝mysql
1.如果centos系統中自帶mariadb,先卸載mariadb。
2.解壓mysql安裝包程序
執行:tar -xvf mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar
3.依次安裝裡面rpm包組建
rpm -ivh mysql-community-common-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-client-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-server-5.7.23-1.el7.x86_64.rpm
rpm -ivh mysql-community-devel-5.7.23-1.el7.x86_64.rpm
4.啟動MySQL
執行: systemctl start mysqld
5.登錄mysql伺服器
這種方式安裝好後,會再my.cnf文件中自動生成一個密碼,
執行:cat /var/log/mysqld.log | grep password, 出現如下記錄:
2017-09-15T01:58:11.863301Z 1 [Note] A temporary password is generated for root@localhost: m-NdrSG4ipuO
其中「m-NdrSG4ipuO」為mysql root賬戶的初始密碼。
登錄:
執行: mysql -uroot -p
輸入密碼: m-NdrSG4ipuO,即可進入mysql伺服器。
後續可自行修改root密碼,創建新賬戶等操作。
六、安裝zookeeper
1.解壓zookeeper安裝包到指定目錄(/home/es)
tar -zxvf zookeeper-3.4.8.tar.gz -C /home/es
2.創建程序軟連接
cd /home/es/
ln -s zookeeper-3.4.8 zookeeper
3.添加執行路徑環境
vi /etc/profile
添加
export ZOOKEEPER_HOME=/home/es/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin
執行
source /etc/profile
4.修改配置文件
cd /home/es/zookeeper
cp conf/zoo_sample.cfg conf/zoo.cfg
在/home/data下創建對應的zookeeper數據存儲目錄
mkdir /home/data/zookeeper
mkdir /home/data/zookeeper/data
mkdir /home/data/zookeeper/log
修改配置文件:conf/zoo.cfg,添加以下語句
dataDir=/home/data/zookeeper/data
dataLogDir=/home/data/zookeeper/log
server.1=hello1:2888:3888
server.2=hello2:2888:3888
5.創建server表示符文件
touch /home/data/zookeeper/data/myid
echo echo 1>/home/data/zookeeper/data/myid
6.復制安裝包和數據目錄到hello2
scp -r /home/es/zookeeper-3.4.8 es@hello2:/home/es
scp -r /home/data/zookeeper es@hello2:/home/data
scp /etc/profile es@hello2:/etc
登錄到hello2上
cd /home/es
ln -s zookeeper-3.4.8 zookeeper
echo echo 2>/home/data/zookeeper/data/myid
執行
source /etc/profile
7.兩台機器上分別執行
zkServer.sh start
8.驗證
jps | grep QuorumPeerMain,查看是否有該進程
zkServer.sh status,查看服務狀態
六、安裝kafka
1.解壓kafka安裝包到指定目錄(/home/es)
tar -zxvf kafka_2.10-0.10.2.1.tgz -C /home/es
2.創建程序軟連接
cd /home/es/
ln -s kafka_2.10-0.10.2.1 kafka
3.修改配置文件
備份:
cp config/server.properties config/server.properties.bak
創建kafka日誌目錄:
mkdir /home/data/kafka
mkdir /home/data/kafka/kafka-logs
修改:config/server.properties,具體對應欄位如下:
broker.id=0
delete.topic.enable=true
num.network.threads=10
num.io.threads=32
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/home/data/kafka/kafka-logs
num.partitions=1
num.recovery.threads.per.data.dir=1
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=hello1:2181,hello2:2181
zookeeper.connection.timeout.ms=6000
6.復制安裝包和數據目錄到hello2
scp -r /home/es/kafka_2.10-0.10.2.1 es@hello2:/home/es
scp -r /home/data/kafka es@hello2:/home/data
修改hello2中的配置
登錄到hello2上,cd /home/es/kafka,修改config/server.properties中broker.id值為2.
7.啟動kafka
在兩台機器的/home/es/kafka中,創建一個日誌存放目錄:mkdir start_log,執行以下命令:
nohup bin/kafka-server-start.sh config/server.properties > start_log/kafka_start_log 2>&1 &
8.驗證運行情況
jps | grep Kafka,查看進程
通過kafka命令查看topic。
七、安裝hadoop
1.解壓hadoop安裝包到指定目錄(/home/es)
tar -zxvf hadoop-2.7.0.tar.gz -C /home/es
2.創建程序軟連接
cd /home/es/
ln -s hadoop-2.7.0 hadoop
3.創建數據存放目錄
mkdir /home/data/hadoop
mkdir /home/data/hadoop/tmp
mkdir /home/data/hadoop/dfs
mkdir /home/data/hadoop/dfs/data
mkdir /home/data/hadoop/dfs/name
4.修改配置文件
修改/home/es/hadoop/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hello1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/data/hadoop/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
</configuration>
修改/home/es/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/data/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/data/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hello1:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
修改/home/es/hadoop/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>maprece.jobhistory.address</name>
<value>hello1:10020</value>
</property>
<property>
<name>maprece.jobhistory.webapp.address</name>
<value>hello1:19888</value>
</property>
</configuration>
修改/home/es/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.maprece.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hello1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheler.address</name>
<value>hello1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hello1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hello1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hello1:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>768</value>
</property>
</configuration>
配置/home/es/hadoop/etc/hadoop目錄下hadoop-env.sh、yarn-env.sh的JAVA_HOME(不設置的話,啟動不了)
export JAVA_HOME=/usr/java/jdk1.8.0_171
配置/home/es/hadoop/etc/hadoop目錄下的slaves,刪除默認的localhost,增加2個從節點,
hello1
hello2
5、將配置好的Hadoop復制到各個節點對應位置上,通過scp傳送
scp -r /home/es/hadoop-2.7.0 hello2:/home/es/
scp -r /home/data/hadoop hello2:/home/data/
登錄到hello2上,進入/home/es目錄
執行: ln -s hadoop-2.7.0 hadoop
6、格式化nameNode及啟動hadoop
在主伺服器啟動hadoop,從節點會自動啟動,進入/home/es/hadoop目錄
初始化,輸入命令,bin/hdfs namenode -format
全部啟動sbin/start-all.sh,也可以分開sbin/start-dfs.sh、sbin/start-yarn.sh
輸入命令,jps,可以看到相關信息
7、驗證hadoop運行情況
瀏覽器打開http://hello1:8088/
瀏覽器打開http://hello1:50070/
8、添加hadoop環境變數到/etc/profile
export HADOOP_HOME=/home/es/hadoop export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
執行: source /etc/profile
八、安裝Hbase
1.解壓hbase安裝包到指定目錄(/home/es)
tar -zxvf hbase-1.2.6-bin.tar.gz -C /home/es
2.創建程序軟連接
cd /home/es/
ln -s hbase-1.2.6 hbase
3.添加hbase環境變數到/etc/profile
export HBASE_HOME=/home/es/hbase
export PATH=$HBASE_HOME/bin:$PATH
執行:source /etc/profile
4.修改HBASE配置文件
vi /home/es/hbase/conf/hbase-env.sh
增加: export JAVA_HOME=/usr/java/jdk1.8.0_171
修改: export HBASE_MANAGES_ZK=false
vi /home/es/hbase/conf/hbase-site.xml
修改類容:
<configuration>
<property>
<name>hbase.rootdir</name> <!-- hbase存放數據目錄 -->
<value>hdfs://hello1:9000/hbase/hbase_db</value>
<!-- 埠要和Hadoop的fs.defaultFS埠一致-->
</property>
<property>
<name>hbase.cluster.distributed</name> <!-- 是否分布式部署 -->
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name> <!-- list of zookooper -->
<value>hello1,hello2</value>
</property>
<property><!--zookooper配置、日誌等的存儲位置 -->
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/es/hbase/zookeeper</value>
</property>
</configuration>
配置regionservers,vi /home/es/hbase/conf/regionservers
去掉默認的localhost,加入hello1、hello2
5、將配置好的hbase復制到各個節點對應位置上,通過scp傳送
scp -r /home/es/hbase-1.2.6 hello2:/home/es/
scp /etc/profile hello2:/etc/
登錄到hello2上,進入/home/es目錄
執行: ln -s hbase-1.2.6 hbase
source /etc/profile
6、hbase的啟動
hello1中執行: start-hbase.sh
7、驗證hbase運行情況
輸入jps命令查看進程是否啟動成功,若 hello1上出現HMaster、HRegionServer、HQuormPeer,hello2上出現HRegionServer、HQuorumPeer,就是啟動成功了。
輸入hbase shell 命令 進入hbase命令模式,輸入status命令,查看運行狀態。
在瀏覽器中輸入http://hello1:16010就可以在界面上看到hbase的配置
注意事項:
正常安裝後,創建普通不帶壓縮表可以正常讀寫,當使用snappy進行壓縮創建表時,該表無法再regionServer中啟動!
解決方法:
1.在hbase-site.xml文件中添加一下屬性
<property>
<name>hbase.regionserver.codecs</name>
<value>snappy</value>
</property>
2.每台機器中將hadoop_native.zip解壓縮到hbase安裝目錄的lib下,執行 unzip hadoop_native.zip $HBASE_HOME/lib/
3.在$HBASE_HOME/conf/hbase-env.sh 中添加:export HBASE_LIBRARY_PATH=/home/es/hbase/lib/native
4.重啟Hbase服務即可
九、Spark安裝
1.解壓hbase安裝包到指定目錄(/home/es)
tar -zxvf spark2.1.0hadoop2.6.tgz.gz -C /home/es
2.創建程序軟連接
cd /home/es/
ln -s spark2.1.0hadoop2.6 spark
3.修改配置文件
mv /home/es/spark/conf/spark-env.sh.template /home/es/spark/conf/spark-env.sh
vi /home/es/spark/conf/spark-env.sh
修改對應配置:
export JAVA_HOME=/usr/java/jdk1.8.0_171
export SPARK_MASTER_IP=hello1
export SPARK_MASTER_PORT=7077
export SPARK_LOCAL_IP=hello1
修改slaves文件
mv /home/es/spark/conf/slaves.template /home/es/spark/conf/slaves
vi /home/es/spark/conf/slaves
將localhost修改成:
hello1
hello2
5、將配置好的hbase復制到各個節點對應位置上,通過scp傳送
scp -r /home/es/spark2.1.0hadoop2.6 hello2:/home/es/
登錄到hello2上,進入/home/es目錄
執行: ln -s spark2.1.0hadoop2.6 spark
在hello2中修改/home/es/spark/conf/spark-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_171
export SPARK_MASTER_IP=hello1
export SPARK_MASTER_PORT=7077
export SPARK_LOCAL_IP=hello2
6、啟動spark
cd /home/es/spark
執行: sbin/start-all.sh
7、檢測執行結果
jps | grep Worker,看是否有相應的進程。
十、安裝elasticsearch
由於elasticsearch,用root賬戶無法啟動,故該組件用es賬戶安裝
1、切換到es賬戶: su es
2、解壓hbase安裝包到指定目錄(/home/es)
tar -zxvf elasticsearch-6.3.0.tar.gz -C /home/es/
創建程序軟連接
cd /home/es/
ln -s elasticsearch-6.3.0 elasticsearch
3、修改配置文件
vi /home/es/elasticsearch/config/elasticsearch.yml
# 集群的名字
cluster.name: crrc-health
# 節點名字
node.name: node-1
# 數據存儲目錄(多個路徑用逗號分隔)
path.data: /home/data1/elasticsearch/data
# 日誌目錄
path.logs: /home/data1/elasticsearch/logs
#本機的ip地址
network.host: hello1
#設置集群中master節點的初始列表,可以通過這些節點來自動發現新加入集群的節點
discovery.zen.ping.unicast.hosts: ["hello1", "hello2"]
# 設置節點間交互的tcp埠(集群),(默認9300)
transport.tcp.port: 9300
# 監聽埠(默認)
http.port: 9200
# 增加參數,使head插件可以訪問es
http.cors.enabled: true
http.cors.allow-origin: "*"
4、創建elasticsearch數據和存儲目錄
mkdir /home/data1/elasticsearch
mkdir /home/data1/elasticsearch/data
mkdir /home/data1/elasticsearch/logs
5、修改linux系統的默認硬限制參數
切換至root用戶: su root
vim /etc/security/limits.conf
添加:
es soft nofile 65536
es hard nofile 65536
退出es登錄,重新用es賬戶登錄,使用命令:ulimit -Hn查看硬限制參數。
vi /etc/sysctl.conf
添加:
vm.max_map_count=655360
執行:
sysctl -p
6、將配置好的elasticsearch復制到各個節點對應位置上,通過scp傳送
scp -r /home/es/elasticsearch-6.3.0 hello2:/home/es/
scp -r /home/data1/elasticsearch hello2:/home/data1/
登錄到hello2上,進入/home/es目錄
執行: ln -s elasticsearch-6.3.0 elasticsearch-6.3.0
在hello2中修改/home/es/elasticsearch/config/elasticsearch.yml
修改: network.host: hello2
7、啟動elasticsearch
使用es賬戶
執行:
/home/es/elasticsearch/bin/elasticsearch -d
8、驗證
控制台中輸入:curl http://hello1:9200
8. 大數據平台的軟體有哪些
這個要分好幾塊來講,首先我要說明的是大數據項目也是要有很多依賴的模塊的。每個模塊的軟體不一樣,下面分別聊一下。
一、大數據處理
這個是所謂大數據項目中最先想到的模塊。主要有spark,hadoop,es,kafka,hbase,hive等。
當然像是flume,sqoop也都很常用。
這些軟體主要是為了解決海量數據處理的問題。軟體很多,我只列幾個經典的,具體可以自行網路。
二、機器學習相關
大部分大數據項目都和機器學習相關。因此會考慮到機器學習的一些軟體,比如說sklearn,spark的ml,當然還有自己實現的代碼。
三、web相關技術
大部分項目也都跑不了一個web的展示,因此web就很重要的,java的ssh,python的django都可以,這個看具體的項目組習慣了。
四、其它
還有一些很常用的東西,個人感覺不完全算是大數據特定使用范橘埋高圍。反正我在做大數據項目的時候也都用到了。
比如說數據存儲:redis,mysql。
數據可視化:echart,d3js。
圖資料庫:neo4j。
再來說說大數據平台的軟體或者工具:
1、資料庫,大數據平台類,星環,做Hadoop生態系列的大數據平台圓尺公司。Hadoop是開源的,星環主要做的是把Hadoop不穩定的部分優化,功能細化,為企業提供Hadoop大數據引擎及液鍵資料庫工具。
2、大數據存儲硬體類,浪潮,很老牌的IT公司,國資委控股,研究大數據方面的存儲,在國內比較領先。
3、雲計算,雲端大數據類,阿里巴巴,明星產品-阿里雲,與亞馬遜AWS抗衡,做公有雲、私有雲、混合雲。實力不差,符合阿里巴巴的氣質,很有野心。
4、數據應用方面這個有很多,比如帆軟旗下的FineReport報表系統和FineBI大數據分析平台等。
帆軟是商業智能和數據分析平台提供商,從報表工具到商業智能,有十多年的數據應用的底子,在這個領域很成熟,目前處於快速成長期,但是很低調,是一家有技術有實力而且對客戶很真誠的公司。