❶ [hive]一種基於Hive日誌分析的大數據存儲優化方法_王正也_百度文庫
一種基於Hive日誌分析的大數據存儲優化方法 王正也 網路文庫
http://wenku..com/link?url=-
2 一種基於Hive日誌的大數據存儲優化方法
2.1 優化方法概述
Hive作為Hadoop開源分布式平台下的數據倉庫工具,他的作用是HDFS上存儲的結構化數據,根據使用者的需求將其映射出數據表,並可以向用戶提供類似SQL的HiveQL查詢功能,並將用戶提交的Query轉換成Map-Rece任務執行。Hive的優點是提供類SQL的查詢介面,快速實現數據的統計分析功能,而不必編寫專用的Map-Rece任務。而也正是因為如此,通用的Hive數據倉庫,沒有進行專用化的優化設計,其查詢分析效率也有很大的優化空間[4]。
文章根據常用的HiveQL的查詢日誌分析和根據現有的數據存儲結構的關聯特性提出一種通用的Hive數據存儲的優化方法。
本策略認為優化一個專用的Hive海量數據倉庫分為以下幾個步驟: 1. 分析常用查詢日誌,根據使用人員習慣定製數據分區結構。 2. 使用專用的優化過的列式存儲結構作為數據導入格式。 3. 根據數據表,和表中欄位的實際物理意義合並壓縮重復欄位和數據表。 4. 根據數據表中欄位實際的取值優化欄位的存儲類型。 5. 編寫UDF,在不改變用戶使用習慣的基礎上,應用上述優化。 其中1.2.兩點在數據導入階段進行優化,3.4.5.是在對數據表欄位和表結構的優化,需要配合UDF來進行。通過上述優化過程可以大大節省HiveQL的查詢時間以及HDFS上數據的佔用空間。
2.2 根據查詢日誌進行分區優化
Hive的日誌記錄了Hive的運行狀況,為本文分析操作者的使用習慣提供了很大的幫助。可以通過編寫Hive的EXPAIN功能進行日誌的分析,利用Hive的EXPLAIN功能,本文可以得到查詢語句的抽象語法樹(ABSTRACT SYNTAX TREE),通過抽象語法樹,本文可以快速得到查詢語句的語法結構。
例如,以下一條語句SELECT col1, SUM(col2) FROM tab1 GROUP BY col1的通過EXPLAIN命令本文可以得到如下結果:
ABSTRACT SYNTAX TREE:
(TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME tab1))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR (TOK_TABLE_OR_COL col1)) (TOK_SELEXPR (TOK_FUNCTION sum (TOK_TABLE_OR_COL col2)))) (TOK_GROUPBY (TOK_TABLE_OR_COL col1))))
可以通過使用正則表達式抓取特徵數據,得到該語句的語法結構,同時通過編寫Shell腳本,批量執行EXPLAIN命令,可以很快的理解到使用者的常用語法習慣,為後文的分區優化提供了數據支持。 通過對使用者常用欄位進行分區(partition),帶來的便利是大大的節省了一些常用查詢的在硬碟中讀取數據所消耗的時間。 通常在沒有進行過優化的Hive系統中,每次查詢提交之後,Hive要對輸入數據進行全盤掃描滿足條件的的項目,通過合理的劃分分區,在單次任務提交後,可以按照任務的限定條件只掃描某些關鍵分區的數據,大大提高的Hive查詢執行的效率。
2.3 選取合適的Hive數據存儲格式
在Hive中數據表創建時需要指定文件存儲格式,在Hive0.90版本中,常用的數據格式分為TEXTFILE、SEQUNCEFILE、RCFILE和用戶自定格式等幾種,以上格式的主要區別在行式存儲與列式存儲,不同壓縮演算法等方面的區別。根據Hive數據表格的特性,和通過Hive日誌觀察到的用戶使用習慣等特性,通過選擇合適的文件存儲格式,可以大大提高查詢效率,減少查詢耗費時間。
4 結論
本文給出了一種基於Hive日誌分析的大數據存儲優化方法,通過實際測試可以看出,使用該優化方法的Hive數據存儲系統無論從磁碟空間利用率還是從查詢效率上都得到和很大提升。
❷ 大數據對未來教育的影響包括哪些
作為社會子系統重要的組成部分,教育也深受大數據來臨的深刻影響。國外高校教學管理中,教育數據的挖掘也成為提高教學管理水平和教學質量的重要方式。美國的學校能夠通過對學生數據的分析,以85%的精確度預測學生的升學率。[4]中國教育在當前社會轉型影響下存在不少問題,通過正在形成的大數據技術,教育政策的制定、學習方案與評價方式的確立等,都將發生革命性變化。
1.滲透到教育的核心環節
教育和社會之間是哲學上的辯證關系,一方面,通過教育培養出能改變世界、創造世界的人才;另一方面,教育又深受當前社會氛圍、國家體制、經濟狀況、文化傳統等的影響。從當前來看,教育深受工業社會的影響。從18世紀中葉開始,整個世界開始受到工業革命的影響,市場的擴大和勞動時經驗與技術的要求,對勞動力的素質提出了新的要求,實際的動手能力代替了過去注重個體層面的文化修養學習,能不能解決問題,成為衡量人才的標志。這種人才觀對教育的影響是巨大的,這從美國實用主義哲學家杜威教育思想的流行可見一斑。
大數據時代的來臨將會革新這種延續了近三個世紀的教育理念。美國著名的未來學家,當今最具影響力的社會思想家之一的阿爾文·托夫勒(Alvin Toffler)在他的著作《未來的沖擊》中提出「未來的教育」,他預測未來的教育要面對服務、面對創新,因此在家上學、教育空間設計、面向未來的學校界限的消失將成為趨勢。[5]解決實際問題的能力作為大數據時代人才的能力之一,將漸漸淡出教育的邏輯起點位置,發掘知識、尋找聯系、總結規律將成為大數據時代人才的重要要求。大數據時代教師將集中在挖掘學生與學習有關的表現,最適宜學生學習的方法,而不是依賴於定期的能力測試。教師分析學生知道什麼,什麼是最有效的學習路徑。通過對在線學習工具等的分析,可以評估學生在線學習行為的長度,以及學生們如何獲得電子資源,如何迅速地掌握概念。[6]
從我國實際情況來看,教育政策的制定與執行都是自上而下的,這種情況有利於政策的權威性與執行的效率,但是忽視教學與學生實際的弊端也客觀存在。大數據時代將可以通過對教育數據的分析,挖掘出教學、學習、評估等符合學生實際與教學實際的情況,這樣就可以有的放矢地制定、執行教育政策,從而為學生制定出更符合實際的教育策略。
2.重新構建教學評價方式
長期以來,教學評價活動主要是學校以及上級主管部門在聽課和學生考試成績的基礎上對任課教師進行評價,或者教師根據學生考試成績和作業成績以及課堂表現等對學生進行評價。[7]教學評價活動促進了教師的教學和學生的學習,但是在細節方面還有待提高,比如教師在教學活動中,哪些教學方式是最為擅長也最容易為學生接受?學生在學習過程中,個體的學習習慣是什麼,什麼樣的學習方式最容易掌握知識?這些細節可能需要大量的實踐經驗總結出來,短期的教學評價是難以實現的。
大數據技術通過對教師與學生長期行為進行分析,得出具有個性化的教學行為、習慣、方式。「不得不承認,對於學生,我們知道的太少」。同樣,我們也可能對教師知道的太少。大數據的到來,可以通過技術層面來評價、分析並進而提升教學活動。首先,教學評價的方式不再是經驗式的,而是可以通過大量數據的「歸納」,找出教學活動的規律。比如新一代的在線學習平台,就多出了行為和學習誘導的部分。通過記錄學習者滑鼠的點擊,可以研究學習者的活動軌跡,發現不同的人對不同知識點有何不同反應,用了多長時間,以及哪些知識點需要重復或強調。[8]對於學習活動來說,學習的效果體現在日常行為中,哪些知識沒有掌握,哪類問題最易犯錯等成為分析每個學生個體行為的直接結果。其次,可以對學生進行多元評價,而不僅僅是知識掌握的單一維度。對學生的評價應該是多元的,特別是通過數據分析,可以發現學生思想、心態與行為的變化情況。比如,同一寢室,互相刪除了聯系方式,或者兩者之間沒有任何數據產生,同學之間的關系肯定出現了問題,通過數據分析,就應在學生心理與行為方面進行關照。如果通過文本分析、信息抓取分析出學生的近期情緒狀態,很多悲劇可能就能避免。即使是掌握知識的單一維度,其因素也是多方面的,有的是記憶好,有的則是邏輯思維能力強,通過大數據技術,可以分析出每個學生的特點,從而發現優點,規避缺點,矯正不良思想行為。第三,教學評價跳出了結果評價的圈子,實現過程性評價。傳統教學評價多是教的好不好,學的好不好,注重的是結果。而大數據時代可以通過技術手段,記錄教育的過程。現在一些學校實行了電子課本,如果能記錄下作業情況,課堂言行,師生互動,同學交往,並將這些數據匯集起來,不僅可以發現學生的特點,更不用為如何寫期末評價費力了。
3.革新教育者教學思維
傳統的教育大多是教育主管部門和教育者通過教學經驗的學習與自己的總結,認為某些因素對教學活動很重要,從而一而再、再而三地強調。但是有些經驗是不具有科學性的,常識有時會影響人們的判斷。比如蘋果公司就發現,筆記本電腦銷售額的提升,常識認為的比如提高庫存管理能力、提供員工更多的專業培訓、做更為時尚的廣告、促銷等等,只能提升2%~9%的銷售額,而把電腦屏幕和桌子呈70度角左右放置,卻能高出其他電腦銷售額的15%。70度角放置的電腦,因為反光會讓人不舒服,從而誘使客戶去搬動屏幕,一旦潛在客戶與貨物發生了肢體接觸,他購買這個商品的可能性就上升了15%。[9]
大數據時代教師的教學思維需要從群體教育的方式轉向個體教育,在教學過程中,可以真正做到因材施教,因人而異。傳統教育也提倡因材施教,但是由於學生數量、教師精力、教育任務等制約,因材施教總是有些缺憾。大數據技術將給教師提供最為真實、最為個性化的學生特點,教師在教學過程中可以有針對性地進行因材施教。比如,在課堂學習過程中,哪些(或哪個)同學注意基礎部分,哪些同學注意實踐內容,哪些同學完成某一練習,哪些同學可以閱讀推薦書目等等。這和網路購物相似,通過你過去的購買痕跡,網站就會分析出你的購物興趣,從而有針對性地給你推送廣告信息。
不僅如此,當學生在完成教師布置的作業時,也能通過數據分析強化學習。比如通過電子設備做作業時,某一類型的題目有幾次全對,就可以把類似的題目跳過;如果某個類型的題目犯錯,系統則可進行多次強化,這樣不僅提高了學習效率,也減輕了學生的學習負擔。
4.影響學校教育模式
學校教育是當前教育的絕對模式,適齡兒童、青少年都需要進入學校,通過教師的講授進行學習。但是隨著大數據時代的來臨,這一教學模式可能會得以改變。2004年,澳大利亞人馬丁開發了一個開源課程平台moodle,解決了來回奔波上課的問題。教師通過這個平台與學生互動,學習、考試、資料分發與上傳等,都通過網站完成。2010年,這個平台數量已經達到了100萬門戶。2006年,孟加拉裔金融白領薩爾曼·可汗將自己的10分鍾教學視頻傳到網上,幾年後,這個網站注冊用戶達到了1000萬。[10]
教育平台的開發,使網路課程得以飛速發展,2012年美國在線課程投資達到10億美元以上。網路課程的發展給傳統教學帶來了巨大沖擊,一方面,教育的方式將不再僅僅局限於學校教育;另一方面,教師的課堂教學出現新的替代模式。這種教育模式的革新,在大數據時代更有了存在的價值與意義。
傳統教學模式有教師的督促、隨時溝通、情感交流,是按照教學大綱按部就班地完成教學活動。這種教學模式有計劃、有步驟,體現秩序性,但是在一定程度上也框定了學生的思維框架,學生的創新能力沒有得到最大發揮。美國不少商業巨鱷都有輟學經歷,甚至有的創業基金要求學生輟學才能發放。這當然不值提倡,但是,從一個側面也反應出非學校教育,也同樣具有創造能力的事實。大數據時代的來臨,可以通過學生學習興趣、在某一在線課程停留的時間、點擊率、情緒反應等,推送更具有個性化的學習內容。這在知識爆炸的時代,顯得尤為重要。此外,隨著媒介社會化時代的來臨,學生學習生活網路化已成事實,學生可以通過在線學習目前正在開設的課程,這對正在授課的教師是一種挑戰。美國有個Udemy網站,老師根據自己上傳視頻的點擊率獲得報酬,2012年5月份,該網站上有的老師收入已經超過20萬美元。隨著技術的發展,以後教育網站將在大數據的支撐下,根據知識傳播的形式、受眾的興趣不斷優化教學內容、教學方式,為學生提供更高質量的學習內容。
❸ 大數據的關鍵技術有哪些_大數據處理的關鍵技術有哪些
大數據處理關鍵技術一般包括:大數據採集、大數據預處理、大數據存儲及管理、大數據分早李爛析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。
一、大數據採集技術
數據是指通過RFID射頻數據、感測器數據、社交網路交互數據及移動互聯網數據等方擾帆式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。
二、大數據預處理技術
主要完成對已接收數據的辨析、抽取、清洗等操作。1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。2)清洗:對於大數據,並不全是有價值的,有些數據陸漏並不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾「去噪」從而提取出有效數據。
三、大數據存儲及管理技術
大數據存儲與管理要用存儲器把採集到的數據存儲起來,建立相應的資料庫,並進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。
四、大數據分析及挖掘技術
大數據分析技術。改進已有數據挖掘和機器學習技術;開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。
六、大數據展現與應用技術
大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。在我國,大數據將重點應用於以下三大領域:商業智能、政府決策、公共服務。例如:商業智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環境監測技術,警務雲應用系統(道路監控、視頻監控、網路監控、智能交通、反電信詐騙、指揮調度等公安信息系統)本回答根據網路文庫資料整理,原文請參見《大數據關鍵技術》
❹ 靠譜的大數據培訓機構有哪些
大數據培訓機構有:企贏大數據培訓學院、傳智播客大數據培訓學院、產品手記大數據培訓機構、傳一大數據培訓機構、黑馬大數據培訓機構。具體介紹如下:
1、企贏培訓學院:
企贏培訓學院的優勢,企業自己的案例和業內標桿企業案例結合,講師針對性講解;多年研發企業的研發實踐和產品管理經驗總結,課程系統全面。從市場需求到產品規劃整個過程中具體工具和方法介紹;小組方式實際演練,體會上述工具在市場需求分析、產品規劃中的運用。
4、傳一大數據培訓機構:
傳一大數據培訓機構擁有自主研發的全套系列理論教材、項目實戰手冊,
以及完善項目管控體系及MOOC線上教學平台。在如此完善的學術沉澱的引領下,造就了數千人的成功就業,
同時獲得了眾多省內知名企業的認可;
先後與星網銳捷、網龍、睿能、萬利達、鑫諾、廈華、雅迅、巨龍等知名企業簽訂人才戰略合作,
並為網龍、中國郵政、億力科技、日立集團等多家大型企業實施員工內訓。
高質量的師資團隊保證了傳一科技高水平、高質量的教學。
5、黑馬高端大數據培訓機構:
黑馬高端大數據培訓機構已經建立自己的大學,打造涵蓋中小學基礎教育、職業教育、繼續教育在內的全套教育生態鏈,從開端啟蒙教育到成年後的職業應用教育,從根本上解決以「人」為單位的系統化教育培訓問題。