㈠ 大數據學習什麼
大數據學以下內容:
階段一:JavaSE基礎核心
1.深入理解Java面向對象思想
2.掌握開發中常用基礎API
3.熟練使用集合框架、IO流、異常
4.能夠基於JDK8開發
5.熟練使用MySQL,掌握SQL語法
階段二:Hadoop生態體系架構
2.熟練掌握Shell腳本語法
3.Idea、Maven等開發工具的使用
4.Hadoop組成、安裝、架構和源碼深度解析,以及API的熟練使用
5.Hive的安裝部署、內部架構、熟練使用其開發需求以及企業級調優
6.Zookeeper的內部原理、選舉機制以及大數據生態體系下的應用
7.Flume的架構原理、組件自定義、監控搭建,熟練使用Flume開發實戰需求
8.Kafka的安裝部署以及框架原理,重點掌握Kafka的分區分配策略、數據可靠性、數據一致性、數據亂序處理、零拷貝原理、高效讀寫原理、消費策略、再平衡等內容
9.統籌Hadoop生態下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等諸多框架,搭建數據採集系統,熟練掌握框架結構和企業級調優手段
階段三:Spark生態體系架構
1.Spark的入門安裝部署、Spark Core部分的基本API使用熟練、RDD編程進階、累加器和廣播變數的使用和原理掌握、Spark SQL的編程掌握和如何自定義函數、Spark的內核源碼詳解(包括部署、啟動、任務劃分調度、內存管理等)、Spark的企業級調優策略
2.DophineScheler的安裝部署,熟練使用進行工作流的調度執行
3.了解數據倉庫建模理論,充分熟悉電商行業數據分析指標體系,快速掌握多種大數據技術框架,了解認識多種數據倉庫技術模塊
4.HBase和Phoenix的部署使用、原理架構講解與企業級優化
5.開發工具Git&Git Hub的熟練使用
6.Redis的入門、基本配置講解、jedis的熟練掌握
7.ElasticSearch的入門安裝部署及調優
8.充分理解用戶畫像管理平台的搭建及使用、用戶畫像系統的設計思路,以及標簽的設計流程及應用,初步了解機器學習演算法
9.項目實戰。貼近大數據的實際處理場景,多維度肆薯設計實戰項目,能夠更加廣泛的掌握大數據需求解決方案,全流程參與項目裂罩者打造,短時間提高學生的實戰水平,對各個常用框架加強認知,迅速累積實戰經驗
階段四:Flink生態體系架構
1.熟練掌握Flink的基本架構以及流式數據處理思想,熟練使用Flink多種Soure、Sink處理數據,熟練使用基本API、Window API 、狀態函數、Flink SQL、Flink CEP復雜事件處理等
2.使用Flink搭建實時數倉項目,熟練使用Flink框架分析計算各種指標
3.ClickHouse安裝、使用及調優
4.項目實戰。貼近大數據的實際處理場景,多維度設計實戰項目,能夠更廣泛的掌握大數據需求解決方案,全流程參與項目打造,短時間提高學生的實戰水平,對各個常用框架加強認知,迅速累積實戰經驗
5.可選掌握推薦和機器學習項目悶槐,熟悉並使用系統過濾演算法以及基於內容的推薦演算法等
6.採用阿里雲平台全套大數據產品重構電商項目,熟悉離線數倉、實時指標的阿里雲解決方案
㈡ LINUX awk 語句 awk ' { SUM += $1 } END { print SUM }'請問這個要怎麼理解,需詳細
1、首抄先awk截取指定域,在日誌的處理和監控中,經常會截取指定的字元來進行後續處理。如:從df -h命令中提取/目錄所佔百分比(監控經常會用到)。
㈢ shell如何將一行的數據求累加值網上很多awk都是加列,不是行。
如果一個a.txt文件中有一行數據,每個用空格隔開的:
1 2 5 23 4 77 23 4 6
那麼可以用awk計算一行的數據求和
awk '
{
for (i=1; i<= NF; i++) sum += $i;
print sum;
}
' a.txt
就會輸出一行的求和結果。如果有多行的話,上面的程序會輸出每一行的求和結果。
㈣ 怎麼在linux shell 里自動輸入一個數字,比如2,然後自動執行一個回車
可以設置read命令計數輸入的字元。當輸入的字元數目達到預定數目時,自動版退出,並權將輸入的數據賦值給變數。
#!/bin/bash
read -n1 -p "Do you want to continue [Y/N]?" answer
case $answer in
Y | y)
echo "fine ,continue";;
N | n)
echo "ok,good bye";;
*)
echo "error choice";;
esac
exit 0
該例子使用了-n選項,後接數值1,指示read命令只要接受到一個字元就退出。只要按下一個字元進行回答,read命令立即接受輸入並將其傳給變數。無需按回車鍵。
㈤ Linux常用命令
就是list的縮寫,通過ls 命令不僅可以查看linux文件夾包含的文件,而且可以查看文件許可權(包括目錄、文件夾、文件許可權)看目錄信息等等
常用參數搭配:
實例:
(changeDirectory),命令語法:cd [目錄名]。說明:切換當前目錄至dirName
實例:
查看當前工作目錄路徑
實例:
創建文件夾
實例:
刪除一個目錄中的一個或多個文件或目錄,如果沒有使用- r選項,則rm不會刪除目錄。如果使用rm 來刪除文件,通常仍可以將該文件恢復原狀
rm [選項] 文件…
常用參數搭配:
實例:
刪除空目錄,一個目錄被刪除之前必須是空的。(注意,rm -r dir 命令可以代替rmdir,但是很危險,萬一它突然就不是空的咧?),另外刪除某目錄時必須具有對父目錄的寫許可權。
實例:
rmdir -p watch/avi刪掉avi目錄,watch目錄就空掉了,那還看什麼?所以乾脆把watch目錄一起刪掉,眼不見為不凈嘛。
mv命令是move的縮寫,可以用來移動文件或者將文件改名,是Linux系統下常用的命令,經常用來備份文件或者目錄。
命令功能:
視mv命令中第二個參數類型的不同(是目標文件還是目標目錄),mv命令將文件重命名或將其移至一個新的目錄中。當第二個參數類型是文件時,mv命令完成文件重命名,此時,源文件只能有一個(也可以是源目錄名),它將所給的源文件或目錄重命名為給定的目標文件名。當第二個參數是已存在的目錄名稱時,源文件或目錄參數可以有多個,mv命令將各參數指定的源文件均移至目標目錄中。在跨文件系統移動文件時,mv先拷貝,再將原有文件刪除,而鏈至該文件的鏈接也將丟失。
命令參數:
實例:
將源文件復制至目標文件,或將多個源文件復制至目標目錄。
注意:命令行復制,如果目標文件已經存在會提示是否覆蓋,而在shell腳本中,如果不加-i參數,則不會提示,而是直接覆蓋!
命令參數:
實例:
cat主要有三大功能:
命令參數:
實例:
功能類似於cat, more會以一頁一頁的顯示方便使用者逐頁閱讀,而最基本的指令就是按空白鍵(space)就往下一頁顯示,按 b 鍵就會往回(back)一頁顯示
命令參數:
常用操作命令:
實例:
less 與 more 類似,但使用 less 可以隨意瀏覽文件,而 more 僅能向前移動,卻不能向後移動,而且 less 在查看之前不會載入整個文件。
命令參數:
實例:
head 用來顯示檔案的開頭至標准輸出中,默認head命令列印其相應文件的開頭10行。
常用參數:
實例:
從指定點開始將文件寫到標准輸出。使用tail命令的-f選項可以方便的查閱正在改變的日誌文件,tail -f filename會把filename里最尾部的內容顯示在屏幕上,並且不斷刷新,使你看到最新的文件內容。
常用參數:
實例:
用於改變linux系統文件或目錄的訪問許可權。該命令有兩種用法。一種是包含字母和操作符表達式的文字設定法;另一種是包含數字的數字設定法。
每一文件或目錄的訪問許可權都有三組,每組用三位表示,分別為文件屬主的讀、寫和執行許可權;與屬主同組的用戶的讀、寫和執行許可權;系統中其他用戶的讀、寫和執行許可權。可使用ls -l test.txt查找。
以文件log2012.log為例:
-rw-r--r-- 1 root root 296K 11-13 06:03 log2012.log
第一列共有10個位置,第一個字元指定了文件類型。在通常意義上,一個目錄也是一個文件。如果第一個字元是橫線,表示是一個非目錄的文件。如果是d,表示是一個目錄。從第二個字元開始到第十個共9個字元,3個字元一組,分別表示了3組用戶對文件或者目錄的許可權。許可權字元用橫線代表空許可,r代表只讀,w代表寫,x代表可執行。
常用參數:
許可權范圍:
許可權代號:
實例:
tar命令是類Linux中比價常用的解壓與壓縮命令。
常用參數:
-c: 建立壓縮檔案
-x:解壓
-t:查看內容
-r:向壓縮歸檔文件末尾追加文件
-u:更新原壓縮包中的文件
這五個是獨立的命令,壓縮解壓都要用到其中一個,可以和別的命令連用但只能用其中一個。下面的參數是根據需要在壓縮或解壓檔案時可選的。
下面的參數-f是必須的
常見解壓/壓縮命令
chown將指定文件的擁有者改為指定的用戶或組,用戶可以是用戶名或者用戶ID;組可以是組名或者組ID;文件是以空格分開的要改變許可權的文件列表,支持通配符。
常用參數:
實例:
顯示磁碟空間使用情況。獲取硬碟被佔用了多少空間,目前還剩下多少空間等信息,如果沒有文件名被指定,則所有當前被掛載的文件系統的可用空間將被顯示。默認情況下,磁碟空間將以 1KB 為單位進行顯示,除非環境變數 POSIXLY_CORRECT 被指定,那樣將以512位元組為單位進行顯示。
常用參數:
實例:
命令也是查看使用空間的,但是與df命令不同的是,能看到的文件只是一些當前存在的,沒有被刪除的,他計算的大小就是當前他認為存在的所有文件大小的累加和。命令是對文件和目錄磁碟使用的空間的查看。
常用參數:
實例:
ln命令用於將一個文件創建鏈接,鏈接分為軟鏈接和硬鏈接,命令默認使用硬鏈接。當在不同目錄需要該文件時,就不需要為每一個目錄創建同樣的文件,通過ln創建的鏈接(link)減少磁碟佔用量。
軟鏈接:
硬鏈接:
需要注意:
常用參數:
實例:
顯示或設定系統的日期與時間
命令參數:
實例:
可以用戶顯示公歷(陽歷)日歷,如只有一個參數,則表示年份(1-9999),如有兩個參數,則表示月份和年份。
常用參數:
實例:
強大的文本搜索命令,grep(Global Regular Expression Print)全局正則表達式搜索。
grep的工作方式是這樣的,它在一個或多個文件中搜索字元串模板。如果模板包括空格,則必須被引用,模板後的所有字元串被看作文件名。搜索的結果被送到標准輸出,不影響原文件內容。
命令格式:
grep [option] pattern file|dir
常用參數:
實例:
wc(word count)功能為統計指定的文件中位元組數、字數、行數,並將統計結果輸出。
命令格式:
wc [option] file..
命令參數:
實例:
ps(process status),用來查看當前運行的進程狀態,一次性查看,如果需要動態連續結果使用top。
linux上進程有5種狀態:
ps工具標識進程的5種狀態碼:
命令參數:
實例:
顯示當前系統正在執行的進程的相關信息,包括進程ID、內存佔用率、CPU佔用率等。
常用參數:
發送指定的信號到相應進程。不指定型號將發送SIGTERM(15)終止指定進程。如果無法終止該程序可用「-KILL」 參數,其發送的信號為SIGKILL(9) ,將強制結束進程,使用ps命令或者jobs 命令可以查看進程號。root用戶將影響用戶的進程,非root用戶只能影響自己的進程。
常用參數:
實例:
顯示系統內存使用情況,包括物理內存、交互區內存(swap)和內核緩沖區內存。
命令參數:
實例:
Netstat 是一款命令行工具,可用於列出系統上所有的網路套接字連接情況,包括 tcp, udp 以及 unix 套接字,另外它還能列出處於監聽狀態(即等待接入請求)的套接字。如果你想確認系統上的 Web 服務有沒有起來,你可以查看80埠有沒有打開。以上功能使 netstat 成為網管和系統管理員的必備利器。
命令參數:
實例