❶ 大數據時代,數據的存儲與管理有哪些要求
數據時代的到來,數據的存儲有以下主要要求:
首先,海量數據被及時有效地存儲。根據現行技術和預防性法規和標准,系統採集的信息的保存時間不少於30天。數據量隨時間的增加而線性增加。
其次,數據存儲系統需要具有可擴展性,不僅要滿足海量數據的不斷增長,還要滿足獲取更高解析度或更多採集點的數據需求。
第三,存儲系統的性能要求很高。在多通道並發存儲的情況下,它對帶寬,數據容量,高速緩存等有很高的要求,並且需要針對視頻性能進行優化。
第四,大數據應用需要對數據存儲進行集中管理分析。
❷ 大數據、高性能環境對存儲的需求
大數據、高性能環境對存儲的需求
一直以來,高性能計算的主要目的就是提高運算速度,來解決大規模科學計算和海量數據的處理問題。高性能計算每秒萬億次級的強大計算能力,使其成為石油、生物勘探、氣象預測、生命科學研究等領域的重要技術選擇。但是隨著數據量以及數據價值的不斷增長,金融、電信、互聯網等領域對高性能計算的需求不斷加大。隨著技術的發展,高性能計算系統的處理能力越來越強,任務的計算時間越來越短,對業務的價值不斷提高。但是,要想實現快速的任務計算處理,高性能計算系統的存儲能力是關鍵。因為在計算開始,要從存儲系統中讀取數據;計算結束時,要向存儲系統中寫入計算後的結果。如果這之間的讀取和寫入速度不匹配,不僅會拖延高性能項目的完成周期,低延遲還會嚴重影響高性能創造價值的能力。通常,高性能計算要求存儲系統能夠滿足性能、可擴展性要求,保護投資回報:吞吐量達到幾個甚至幾十個GB/s,容量能擴展至PB級;透明的訪問和數據共享;集中式的智能化管理,高性價比;可按需獨立擴展容量和性能等。中橋分析師在深圳華大基因研究院實地測試了EMC Isilon 產品在其HPC 環境下的運行情況,並記錄下其結果。
背景
高性能計算(High Performance Computing—HPC )指通常使用很多處理器(作為單個機器的一部分)或者某一集群組織中幾台計算機(作為單個計算資源操作)的計算系統和環境。長期以來,高性能計算應用的主要領域是科學與工程計算,諸如高能物理、核爆炸模擬、氣象預報、石油勘探、地震預報、地球模擬、葯品研製、CAD 設計中的模擬與建模、流體力學的計算等。如今,像金融證券、政府信息化、電信行業、教育、企業、網路游戲等領域對HPC的需求也在迅猛增長。
高性能計算的應用
高性能計算有著廣泛的行業應用基礎,下面列舉幾個行業對高性能計算的應用需求:
1. 航空航天行業
在航空航天行業,隨著中國航空航天事業的快速發展,尤其是載人航天技術的巨大成功,我國科技人員對空氣動力學的數值模擬研究提出了越來越多的需求,常規的計算能力遠遠無法滿足復雜的大型飛行器設計所帶來的巨大需求。在航空航天企業的設計過程中,研究人員往往需要把飛機表面分成幾百萬甚至幾千萬個離散型的網格點,然後通過高性能計算平台求解方程,得出每個網格點的溫度、速度、摩擦力等各種參數,並模擬出連續型的曲線,進而為飛機設計提供寶貴的參考資料。對這類計算來說,網格點分割得越細密,計算結果的精確度也就越好。但是這些大規模設計計算問題不但單個作業計算量龐大,且需不斷調整、重復計算,因此高性能在航天航空行業中占據著舉足輕重的地位。
2. 能源行業
石油能源作為國家戰略資源,對於國家經濟、安全、軍事等各方面都具有非常重要的戰略意義。石油勘探承擔著尋找儲油構造、確定井位的重要任務。目前的主流做法就是人為的製造相應規模的地震(視勘探地區面積與深度不同),同時在相應的地層遍布若干震波收集點。由於不同材料的地質環境對地震波的影響是有規可循的,所以藉助這一點,通過相關的演算法,即可以通過對地震波的傳遞演算來「計算出」地質結構,從而找出我們所需要的能源位置。這種計算量無疑是異常龐大的,由於地震波法勘探收集的數據通常都以TB計,近年來海洋油氣勘探所採集的數據甚至開始向PB規模發展。為此,只有藉助高性能計算,才能在最短的時間內處理這些海量數據。
3. 生命科學
在現代生命科學領域,以數據為驅動力的改變正引發著巨大的變革。海量生物數據的分析將會增強疾病的實時監控能力和對潛在流行病做出反應的能力,但海量數據的挖掘、處理、存儲卻面臨著前所未有的挑戰。特別是隨著新一代測序技術的迅猛發展,基因組學研究產生的海量數據正以每12- 18個月10倍的速度增長,已遠超越著名的摩爾定律,這使得眾多生物企業和科研機構面臨強大的數據分析和存儲需求。
在國內,生物基因行業的發展勢頭也不可小覷。2011年1 月30日,國家發改委已批復同意深圳依託華大基因研究院組建國家基因庫,這是中國首次建立國家級基因庫,首期投資為1500萬元。深圳國家基因庫是一個服務於國家戰略需求的國家級公益性創新科研及產業基礎設施建設項目,是目前我國唯一一個獲批籌建的國家級基因庫,是全球僅次美國、日本和歐洲三個國家級基因庫之後的世界第四個國家級基因庫。現在,該國家基因庫已經收集了100萬GB的生物數據,包含基因組、轉錄組、蛋白質組、代謝組及表型的數據,同時也積累了約四十萬份生物樣本。預計該基因庫最終將達到10億GB級別的數據容量。深圳國家基因庫和國際上已有的基因庫相比,它的特點是既有「濕庫」也有「干庫」:前者把千萬種實體的動植物、微生物和人類組織細胞等資源和樣本納入網路;後者匯集巨量的核酸、基因表達、蛋白、表型等多類數據信息,成為「大數據」生物學時代研究生物生長發育、疾病、衰老、死亡以及向產業化推廣的利器。
4. 金融行業
金融說到底就是數據。在金融市場中,擁有速度就意味著更高的生產力和更多的市場份額。金融計算模型相當復雜,數據收集越多,計算結果越精確。金融分析師都迫切地需要一個能模擬復雜現實環境,並進行精確處理的金融計算程序,以便對每個投資產品及時地評估投資收益,衡量投資風險,以期獲得更好的投資回報。也正因此,高性能計算已經越來越多地應用到全球資本市場,以期在最短時間內實現對市場的動態響應與轉換。
5. 氣象預報
世紀二十年代初,天氣預報方程已基本建立。但只有在計算機出現以後,數值天氣預報才成為可能。而在使用並行計算機系統之前,由於受處理能力的限制,只能做到24小時天氣預報。高性能計算是解決數值預報中大規模科學計算必要手段。採用高性能計算技術,可以從提高解析度來提高預報精度。
6. 游戲動漫和影視產業
隨著3D、4D電影的興起和高清動漫趨熱,由高性能計算(HPC )集群構成的「渲染農場」已經成為三維動畫、影視特效公司不可或缺的生產工具。動漫渲染基於一套完整的程序進行計算,從而通過模型、光線、材質、陰影等元素的組合設定,將動漫設計轉化為具體圖像。以《玩具總動員》為例,如果僅使用單台工作站(單一處理器)進行動畫渲染,這部長達77分鍾的影片的渲染時間將會是43年,而採用集群渲染系統,只需約80天。
❸ 大數據的存儲
⼤數據的存儲⽅式是結構化、半結構化和⾮結構化海量數據的存儲和管理,輕型資料庫⽆法滿⾜對其存儲以及復雜的數據挖掘和分析操作,通常使⽤分布式⽂件系統、No SQL 資料庫、雲資料庫等。
結構化、半結構化和⾮結構化海量數據的存儲和管理,輕型資料庫⽆法滿⾜對其存儲以及復雜的數據挖掘和分析操作,通常使⽤分布式⽂件系統、No SQL 資料庫、雲資料庫等。
1 分布式系統:分布式系統包含多個⾃主的處理單元,通過計算機⽹絡互連來協作完成分配的任務,其分⽽治之的策略能夠更好的處理⼤規模數據分析問題。
主要包含以下兩類:
1)分布式⽂件系統:存儲管理需要多種技術的協同⼯作,其中⽂件系統為其提供最底層存儲能⼒的⽀持。分布式⽂件系統 HDFS 是⼀個⾼度容錯性系統,被設計成適⽤於批量處理,能夠提供⾼吞吐量的的數據訪問。
2)分布式鍵值系統:分布式鍵值系統⽤於存儲關系簡單的半結構化數據。典型的分布式鍵值系統有 Amazon Dynamo,以及獲得⼴泛應⽤和關注的對象存儲技術(Object Storage)也可以視為鍵值系統,其存儲和管理的是對象⽽不是數據塊。
2 Nosql 資料庫:關系資料庫已經⽆法滿⾜ Web2.0 的需求。主要表現為:⽆法滿⾜海量數據的管理需求、⽆法滿⾜數據⾼並發的需求、⾼可擴展性和⾼可⽤性的功能太低。No SQL 資料庫的優勢:可以⽀持超⼤規模數據存儲,靈活的數據模型可以很好地⽀持 Web2.0 應⽤,具有強⼤的橫向擴展能⼒等,典型的 No SQL 資料庫包含以下⼏種:
3 雲資料庫:雲資料庫是基於雲計算技術發展的⼀種共享基礎架構的⽅法,是部署和虛擬化在雲計算環境中的資料庫。
❹ 國內大數據需求所面臨的典型存儲挑戰
國內大數據需求所面臨的典型存儲挑戰
大數據讓零售無需店面,在最大限度降低投資同時,加快現金流周轉效率。大數據使各行各業商家提高獲取優質客戶資源和提升利潤空間的同時,也使競爭進入「一兵一卒」用戶爭奪戰之中。
大數據時代,企業數據量和數據種類出現飛速增長。大數據時代,全球應用數量從幾年前的以十萬為單位計算,到了以百萬為單位計算。10年前,IT從業人員只是以百萬計算,數據生成來源也比較單一,但現在,IT服務使用者已經上升到十幾億的消費者,數據生成來源更為豐富,是名副其實的大數據時代。同時,IT資源的配置和管理要滿足高度虛擬化或集群IT架構的需求。企業應用部署效率、業務穩定服務性能,以及動態有效滿足OLTP和OLAP性能要求,直接決定著企業核心競爭力。企業要求存儲更靈活、更動態、性能更穩定,以支撐大量用戶對各種IT服務交付的能力。此外,大數據時代還需要集中、統一和自動化管理的功能。
中國市場針對大數據的需求所面臨的典型的存儲挑戰:
1.業務關鍵型性能:就「存儲是否能滿足目前業務關鍵應用性能」的調查結果顯示,接受調查人員(總計455名受訪者)中28.1%表示在未來12個月考慮部署新型存儲。36.5%用戶在未來12-24個月考慮部署新存儲。大數據時代,應用使用者的快速增加,對存儲並行處理能力提出了更高要求。此外,生產應用虛擬化產生大量隨機讀取,這就對傳統IOPs和時間延遲提出了挑戰。
2.存儲利用率:大數據時代數據量快速增加。如何通過存儲容量優化,降低存儲容量和網路資源需求,降低數據保護過程對生產環境的性能影響,是控制大數據存儲新增開支的關鍵。
3. 容量優化系統性能:為了提高存儲資源利用率和業務連續性,存儲廠商近年紛紛推出各種企業級功能。為了降低存儲管理強度,中端以上存儲具有多種工作負載性能監控、動態資源配置和自動化端對端管理功能。然而,傳統存儲控制器處理能力有限,啟動這些企業級功能需要消耗存儲控制器資源。用戶往往要在存儲資源優化和生產性能之間做取捨。
4.在大數據時代如何利用各種已有存儲資源,為大數據時代的業務發展提供高可擴展和業務連續性是關鍵。傳統存儲下,不同廠商的存儲之間無法實現快照、復制、備份和恢復,由此帶來數據保護的大量開支。同時,帶來存儲資源浪費。
大數據環境對系統性能要求非常苛刻,要滿足應用OLTP和大數據分析OLAP,以及業務關鍵型應用的低延遲需求,傳統地通過增加控制器和硬碟這一解決方式不僅帶來高昂的采購、運維成本和佔地空間成本,而且還會導致資源的閑置,從而進一步降低了企業的IT總擁有成本。
❺ 大數據對存儲平台有哪些特殊要求
伴隨著安防大數據時代的來臨,安防行業原有的存儲技術已經無法滿足行業發展新需求,尤其是公共安全視頻監控建設聯網應用工作對數據聯網共享提出了更高的要求,同時以「實戰」為根本的公安業務中,大數據深度挖掘極度依賴數據存儲系統對非結構化數據分析再處理。雲存儲技術的出現,在安防行業大數據發展時代無異於革命性的應用,不斷地解決了安防存儲難題,同時也為視頻監控的深度應用與發展提供強大的驅動力。
當今世界,每個人的一言一行都在產生著數據,並且被記錄著。各行各業爆炸式增長的數據,正推動人類進入大數據時代。根據相關統計,2017年全球的數據總量為21.6ZB,目前全球數據的增長速度在每年40%左右,預計到2020年全球的數據總量將達到40ZB。數據增長在安防行業表現得尤為明顯,在近兩年「平安城市」、「 智能交通」、「 雪亮工程」等不斷開展和深入的過程中,以視頻監控為核心代表的行業發展正朝著超高清、智能化和融合應用的方向邁進,系統性工程中現有視頻監控系統數據採集量正在呈線性增長。海量數據的出現對高效、及時的存儲和處理的要求不斷提升。
從目前行業來看,大數據時代的到來,系統性工程中視頻監控系統對存儲主要有以下幾方面的需求:
一是海量數據及時高效存儲,根據現行的技防法規及標准,一般應用領域視頻監控系統數據採集是7x24小時不間斷的,系統採集的音視頻信息資料留存時限不得少於30日,針對案(事)件信息以及一些特殊應用領域視音頻資料存放時間更長,甚至長期保留,數據量隨時間增加呈線性增長。
二是監控數據存儲系統需要具備可擴展性,不但滿足海量數據持續增加,還需要滿足採集更高解析度或更多採集點的數據需要。
三是對存儲系統的性能要求高。與其他領域不同,視頻監控主要是視頻碼流的存儲,在多路並發存儲的情況下,對帶寬、數據能力、緩存等都有很高的要求,需要有專門針對視頻性能的優化處理。
四是大數據應用需要數據存儲的集中管理分析。但現實情況卻恰恰相反,一方面是系統性工程在分期建設的過程中,采購的設備並不能保證為同一品牌,實際項目中多種品牌、多種型號比比皆是,給視頻監控的存儲集中管理帶來很大難度。同時,在一些大型的項目中,例如特大城市「天網工程」,高速公路中道路監控所跨區域較大,集中存儲較為困難。另外,受網路帶寬及老舊設備影響,系統難以形成統一存儲、統一監控的中心體系架構,導致數據在應用中調取不及時。
總體來看,隨著系統性安防項目的深入開展以及物聯網建設初露崢嶸,大規模聯網監控的建設和高清監控的逐步普及,海量視頻數據已經呈現井噴式地增長,並沖擊著傳統的存儲系統,遺憾的是原有的存儲系統無法滿足大數據時代提出的新要求,亟需新的存儲技術支撐現有業務模式,同時為人工智慧技術在安防領域施展拳腳拓展新的空間。
❻ 大數據存儲需要具備什麼
大數據存儲作為一個數據平台,其並不僅僅是一個用於數據存儲的設備,其需要能夠提供符合成本效益的規模和能力,消除數據遷移,沒有存儲孤島,提供全局可訪問的數據保護和保持數據的可用性。
1.提供符合成本效益的規模和能力,不僅需要購買行業標準的伺服器和存儲產品,同時還要保證產品的擴展能力和性能。而且隨著硬體的推移,能夠根據需要進行擴展,存儲系統需要鏈鄭敗圓能夠持續保證企業的需求,通過增加存儲系統來維持數據增長的性能需求。
2.消除數據棚枯頌遷移,大數據平台必須滿足數據增長而不會受到系統約束的能力。
3.拒絕存儲孤島,為了能夠充分利用大數據的機會,企業必須能夠訪問所有的數據,要實現這一點,新的存儲平台必須能夠滿足這個要求,消除那些傳統的存儲孤島,而不是簡單的添加另一個存儲解決方案。
4.提供全局管理方式,一個集中的數據管理方式在大數據增長迅速的年代已經是不可行的了,一個單點故障的成本會很高,一個大數據存儲平台必須能夠管理分布在全球企業中的數據。
5.保護和維護數據的可用性,數據價值越來越重要,為了防止企業級的產品硬體發生故障,存儲平台必須通過智能軟體來保持數據的可用性和完整性。
❼ 大數據存儲需要具備什麼
大數據之大 大是相對而言的概念。例如,對於像那樣的內存資料庫來說,2TB可能就已經是大容量了;而對於像谷歌這樣的搜索引擎,EB的數據量才能稱得上是大數據。 大也是一個迅速變化的概念。HDS在2004年發布的USP存儲虛擬化平台具備管理32PB內外部附加存儲的能力。當時,大多數人認為,USP的存儲容量大得有些離譜。但是現在,大多數企業都已經擁有PB級的數據量,一些搜索引擎公司的數據存儲量甚至達到了EB級。由於許多家庭都保存了TB級的數據量,一些雲計算公司正在推廣其文件共享或家庭數據備份服務。有容乃大 由此看來,大數據存儲的首要需求存儲容量可擴展。大數據對存儲容量的需求已經超出目前用戶現有的存儲能力。我們現在正處於PB級時代,而EB級時代即將到來。過去,許多企業通常以五年作為IT系統規劃的一個周期。在這五年中,企業的存儲容量可能會增加一倍。現在,企業則需要制定存儲數據量級(比如從PB級到EB級)的增長計劃,只有這樣才能確保業務不受干擾地持續增長。這就要求實現存儲虛擬化。存儲虛擬化是目前為止提高存儲效率最重要、最有效的技術手段。它為現有存儲系統提供了自動分層和精簡配置等提高存儲效率的工具。擁有了虛擬化存儲,用戶可以將來自內部和外部存儲系統中的結構化和非結構化數據全部整合到一個單一的存儲平台上。當所有存儲資產變成一個單一的存儲資源池時,自動分層和精簡配置功能就可以擴展到整個存儲基礎設施層面。在這種情況下,用戶可以輕松實現容量回收和容量利用率的最大化,並延長現有存儲系統的壽命,顯著提高IT系統的靈活性和效率,以滿足非結構化數據增長的需求。中型企業可以在不影響性能的情況下將HUS的容量擴展到近3PB,並可通過動態虛擬控制器實現系統的快速預配置。此外,通過HDSVSP的虛擬化功能,大型企業可以創建0.25EB容量的存儲池。隨著非結構化數據的快速增長,未來,文件與內容數據又該如何進行擴展呢?不斷生長的大數據 與結構化數據不同,很多非結構化數據需要通過互聯網協議來訪問,並且存儲在文件或內容平台之中。大多數文件與內容平台的存儲容量過去只能達到TB級,現在則需要擴展到PB級,而未來將擴展到EB級。這些非結構化的數據必須以文件或對象的形式來訪問。基於Unix和Linux的傳統文件系統通常將文件、目錄或與其他文件系統對象有關的信息存儲在一個索引節點中。索引節點不是數據本身,而是描述數據所有權、訪問模式、文件大小、時間戳、文件指針和文件類型等信息的元數據。傳統文件系統中的索引節點數量有限,導致文件系統可以容納的文件、目錄或對象的數量受到限制。HNAS和HCP使用基於對象的文件系統,使得其容量能夠擴展到PB級,可以容納數十億個文件或對象。位於VSP或HUS之上的HNAS和HCP網關不僅可以充分利用模塊存儲的可擴展性,而且可以享受到通用管理平台HitachiCommandSuite帶來的好處。HNAS和HCP為大數據的存儲提供了一個優良的架構。大數據存儲平台必須能夠不受干擾地持續擴展,並具有跨越不同時代技術的能力。數據遷移必須在最小范圍內進行,而且要在後台完成。大數據只要復制一次,就能具有很好的可恢復性。大數據存儲平台可以通過版本控制來跟蹤數據的變更,而不會因為大數據發生一次變更,就重新備份一次所有的數據。HDS的所有產品均可以實現後台的數據移動和分層,並可以增加VSP、HUS數據池、HNAS文件系統、HCP的容量,還能自動調整數據的布局。傳統文件系統與塊數據存儲設備不支持動態擴展。大數據存儲平台還必須具有彈性,不允許出現任何可能需要重建大數據的單點故障。HDS可以實現VSP和HUS的冗餘配置,並能為HNAS和HCP節點提供相同的彈性。
❽ 大數據行業發展現狀與未來前景分析
近年來,全球正大步邁向大數據新時代,數據的高效存儲、處理和分析等需求也越來越旺盛。在此背景下,行業大數據得以高速發展,應用於各個領域,根據IDC發布的有關數據預測,2025年市場規模將達到19508億元的高點。
全球大數據儲量呈爆發式增長
隨著信息通信技術的發展,各行各業信息系統採集、處理和積累的數據量越來越多,全球大數據儲量呈爆炸式增長。根據國際數據公司(IDC)的監測數據顯示,2013年全球大數據儲量為4.3ZB(相當於47.24億個1TB容量的移動硬碟),2014年和2015年全球大數據儲量分別為6.6ZB和8.6ZB。近幾年全球大數據儲量的增速每年都保持在40%,2016年甚至達到了87.21%的增長率。2016年和2017年全球大數據儲量分別為16.1ZB和21.6ZB,2018年全球大數據儲量達到33.0ZB,2019年全球大數據儲量達到41ZB。
—— 以上數據及分析均來自於前瞻產業研究院《中國行業大數據市場發展前景預測與投資戰略規劃分析報告》。
❾ 如何利用大數據進行用戶需求分析
1.可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統
計
學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如
果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。 大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
大數據的技術
數據採集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系資料庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。
數
據處理: 自然語言處理(NLP,Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機地理解地自然語言,所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支,另一方面它是人工智慧的核心課題之一。
統計分析:
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數
據挖掘: 分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity
grouping or association rules)、聚類(Clustering)、描述和可視化、Description and
Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模模擬。
結果呈現: 雲計算、標簽雲、關系圖等。
大數據的處理
1. 大數據處理之一:採集
大
數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的
數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除
此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時
有可能會有成千上萬的用戶
來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些
海量數據進行有效的分析,還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析
統
計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於
MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4. 大數據處理之四:挖掘
與
前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數
據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於
統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並
且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。