① 企業如何建立大數據部門
企業如何建立大數據部門
企業如何建立大數據部門,很多公司老闆想組建一個大數據團隊,我們需要對於未來數據中心的人員安排如何,怎麼樣工資體系比較合適的?」反過來,有很多剛畢業的大學同學也在問我,「我這個專業需要撐握那些技術才能被企業看上。」當然也有,工作三年以上的小夥伴問我,未來自己的職業規化是怎麼樣的,這個我以後再跟大家一起來探討。
現在大數據很熱,很多大型互聯網公司對於數據部門配製都可以跟財務系統的人員相當了,也有很多初創企業拿到融資的移動互聯網企業,在運營穩定的情況下,已經開始對於大數據分析團隊開始進行配置,市場上能稱的上數據分析師的人才差不多在10萬左右,未來預計在1000萬左右規模會跟數據分析相關人員需求,而大學對於大數據分析這塊專業的缺失,根本來說沒有辦法能承擔一個數據分析師的角色,所以這塊數據分析師的需求會強烈,待遇會高。有同學擔心數據分析師是否未來人工智慧的發展起來,會出現失業的情況,這個相信擔心是多的,因為商業的決策,從來都是人的事,即使未來技術的進步,也不可能會讓機器來代替人的決定。
數據分析師是企業不僅是數據分析工人其實也是數據分析體系的設計師,開始時企業會有很多一些臨時的需求,比如市場部需要數據分析提一些數據做一些表格,這樣很容易會產生很多的表哥表妹的問題,覺得自已的意義不是很大,但是在我看來一個好的數據分析師,他應該是半個市場運行人員有著很好的溝通能力,80%的工作量是業務與市場部門提出的需求,在精通企業業務邏輯運作前提下再結合數據中出現的問題給於業務提出合理的建議,當然現在可能更多的是事後評估與監控的作用。
對於初級數據分析師,如果這個小夥子對於基本的統計模型與數據提供,特別SQL與EXCEL能過關,這個人差不多能用了,但是關鍵點就是這個侯選人是否有著很好的邏輯能力與溝通能力,如果是內向型的,其實未來做起來會很難,因為數據分析師的技術的門檻不高,但是否能對於業務敏感,對於數據敏感,及是否能把分析出來的東西在業務方進行落地,這就是數據分析師的價值。中級數據分析師需要三年以上,就需要他能對於業務進行建模那麼就需要他對於一些基本模型熟悉及對於統計軟體熟悉,當然如果能走的更遠的小夥伴需要能對於自已設計模型能力,怎麼進入數據指導業務的階段。
對於數據部門人員的設計時,最好是把數據分析人員分別跟各個業務線進行對接,最忌諱數據倉庫人員與業務部門對接,這樣很容易使數據部門流於形式,主要的原因數據倉庫人員沒有對於業務方提供需求進行分析,因為有時業務部門在需要數據分析都不知道自已要什麼,所以很容易對於數據團隊產生很負面的影響。因為數據中心說開了,畢竟是一個服務部門很難直接產生價值,所以需要跟業務與市場人員進行密切的協作才能產生價值,最怕就是數據中心自已在做產品,結果很辛苦卻沒有產出。那麼數據中心的團隊的負責人,是數據分析人員還是數據倉庫人員出身的,從我這邊長期的觀察來看,如果是中小型的企業,最好是商務智能出身的比較好一些,主要的原因能滿足初級對於數據分析系統,未來也會對於數據分析有一個不錯的了解,如果企業技術開發能力不錯,最好是數據分析出身,對於實現數據產生價值,有著很深遠的影響。
② 如何為大數據處理構建高性能Hadoop集群
越來越多的企業開始使用Hadoop來對大數據進行處理分析,但Hadoop集群的整體性能卻取決於CPU、內存、網路以及存儲之間的性能平衡。而在這篇文章中,我們將探討如何為Hadoop集群構建高性能網路,這是對大數據進行處理分析的關鍵所在。
關於Hadoop
「大數據」是鬆散的數據集合,海量數據的不斷增長迫使企業需要通過一種新的方式去管理。大數據是結構化或非結構化的多種數據類型的大集合。而 Hadoop則是Apache發布的軟體架構,用以分析PB級的非結構化數據,並將其轉換成其他應用程序可管理處理的形式。Hadoop使得對大數據處理成為可能,並能夠幫助企業可從客戶數據之中發掘新的商機。如果能夠進行實時處理或者接近實時處理,那麼其將為許多行業的用戶提供強大的優勢。
Hadoop是基於谷歌的MapRece和分布式文件系統原理而專門設計的,其可在通用的網路和伺服器硬體上進行部署,並使之成為計算集群。
Hadoop模型
Hadoop的工作原理是將一個非常大的數據集切割成一個較小的單元,以能夠被查詢處理。同一個節點的計算資源用於並行查詢處理。當任務處理結束後,其處理結果將被匯總並向用戶報告,或者通過業務分析應用程序處理以進行進一步分析或儀表盤顯示。
為了最大限度地減少處理時間,在此並行架構中,Hadoop「moves jobs to data」,而非像傳統模式那樣「moving data to jobs」。這就意味著,一旦數據存儲在分布式系統之中,在實時搜索、查詢或數據挖掘等操作時,如訪問本地數據,在數據處理過程中,各節點之間將只有一個本地查詢結果,這樣可降低運營開支。
Hadoop的最大特點在於其內置的並行處理和線性擴展能力,提供對大型數據集查詢並生成結果。在結構上,Hadoop主要有兩個部分:
Hadoop分布式文件系統(HDFS)將數據文件切割成數據塊,並將其存儲在多個節點之內,以提供容錯性和高性能。除了大量的多個節點的聚合I/O,性能通常取決於數據塊的大小——如128MB。而傳統的Linux系統下的較為典型的數據塊大小可能是4KB。
MapRece引擎通過JobTracker節點接受來自客戶端的分析工作,採用「分而治之」的方式來將一個較大的任務分解成多個較小的任務,然後分配給各個TaskTrack節點,並採用主站/從站的分布方式(具體如下圖所示):
Hadoop系統有三個主要的功爛瞎能節點:客戶機、主機和從機。客戶機將數據文件注入到系統之中,從系統中檢索結果,以及通過系統的主機節點提交分析工作等。主機節點有兩個基本作用:管理分布式文件系統中各節點以及從機節點的數據存儲,以及管理Map/Rece從機節點的任務跟蹤分配和任務處理。數據存飢塵空儲和分析處理的實際性能取決於運行數據節點和任務跟蹤器的從機節點性能,而這些從機節點則由各自的主機節點負責溝通和控制。從節點通常有多個數據塊,並在作業期間被分配處理多個任務。
部署實施Hadoop
各個節點硬體的主要要求是市縣計算、內存、網路以及存儲等四個資源的平衡。目前常用的並被譽為「最佳」的解決方案是採用相對較低成本的舊有硬體,部署足夠多的伺服器以應對任何可能的故障,並部署一個完整機架的系統。
Hadoop模式要求伺服器與SAN或者NAS進行直接連接存儲(DAS)。採用DAS主要有三個原因,在標准化配置的集群中,節點的縮放數以千計,隨著存儲系統的成本、低延遲性以及存儲容量需求不斷提高,簡單配置和部署個主要的考慮因素。隨著極具成本效益的1TB磁碟的普及,可使大型集群的TB級數據存儲在DAS之上。這解決了傳統方法利用SAN進行部署極其昂貴的困境,如此多的存儲將使得Hadoop和數據存儲出現一個令人望而卻步的起始成本。有相當大一部分用戶的Hadoop部署構建都是採用大容量的DAS伺服器,其中數據節點大約1-2TB,名稱控制節點大約在1-5TB之間,具體如下圖所示:
對於大多數的Hadoop部署來說,基礎設施的其他影響因素可能還取決於配件,如伺服器內置的千兆乙太網卡或千兆乙太網交換機。上一代的CPU和內存等硬體的選擇,可根據符合成本模型的需求,採用匹配數據傳輸速率要求的千兆乙太網介面來構建低成本的解決方案。採用萬兆乙太網來部署Hadoop也是相當不錯的選擇。
萬兆乙太網對Hadoop集群的作用
千兆乙太網的性能是制約Hadoop系統整體性能的一兄模個主要因素。使用較大的數據塊大小,例如,如果一個節點發生故障(甚至更糟,整個機架宕機),那麼整個集群就需要對TB級的數據進行恢復,這就有可能會超過千兆乙太網所能提供的網路帶寬,進而使得整個集群性能下降。在擁有成千上萬個節點的大型集群中,當運行某些需要數據節點之間需要進行中間結果再分配的工作負載時,在系統正常運行過程中,某個千兆乙太網設備可能會遭遇網路擁堵。
每一個Hadoop數據節點的目標都必須實現CPU、內存、存儲和網路資源的平衡。如果四者之中的任意一個性能相對較差的話,那麼系統的潛在處理能力都有可能遭遇瓶頸。添加更多的CPU和內存組建,將影響存儲和網路的平衡,如何使Hadoop集群節點在處理數據時更有效率,減少結果,並在Hadoop集群內添加更多的HDFS存儲節點。
幸運的是,影響CPU和內存發展的摩爾定律,同樣也正影響著存儲技術(TB級容量的磁碟)和乙太網技術(從千兆向萬兆甚至更高)的發展。預先升級系統組件(如多核處理器、每節點5-20TB容量的磁碟,64-128GB內存),萬兆乙太網卡和交換機等網路組件是重新平衡資源最合理的選擇。萬兆乙太網將在Hadoop集群證明其價值,高水平的網路利用率將帶來效益更高的帶寬。下圖展示了Hadoop集群與萬兆乙太網的連接:
許多企業級數據中心已經遷移到10GbE網路,以實現伺服器整合和伺服器虛擬化。隨著越來越多企業開始部署Hadoop,他們發現他們完全不必要大批量部署1U的機架伺服器,而是部署更少,但性能更高的伺服器,以方便擴展每個數據節點所能運行的任務數量。很多企業選擇部署2U或4U的伺服器(如戴爾 PowerEdge C2100),每個節點大約12-16個核心以及24TB存儲容量。在這種環境下的合理選擇是充分利用已經部署的10GbE設備和Hadoop集群中的 10GbE網卡。
在日常的IT環境中構建一個簡單的Hadoop集群。可以肯定的是,盡管有很多細節需要微調,但其基礎是非常簡單的。構建一個計算、存儲和網路資源平衡的系統,對項目的成功至關重要。對於擁有密集節點的Hadoop集群而言,萬兆乙太網能夠為計算和存儲資源擴展提供與之相匹配的能力,且不會導致系統整體性能下降。
③ 如何打造優秀的大數據團隊
如何打造優秀的大數據團隊
對於企業來說,要建設自己的大數據平台,需要的不只是技術解決方案,更重要的是組建一支優秀的數據團隊。那麼,數據團隊有哪些成員組成?他們的工作方式是什麼?採用怎樣的組織架構來開展工作?
1. 數據團隊成員這里只討論數據團隊中核心成員的角色和他們的工作職責。1)基礎平台團隊主要負責搭建穩定、可靠的大數據存儲和計算平台。核心成員包括:數據開發工程師負責Hadoop、Spark、Hbase和Storm等系統的搭建、調優、維護和升級等工作,保證平台的穩定。數據平台架構師負責大數據底層平台整體架構設計、技術路線規劃等工作,確保系統能支持業務不斷發展過程中對數據存儲和計算的高要求。運維工程師負責大數據平台的日常運維工作2)數據平台團隊主要負責數據的清洗、加工、分類和管理等工作,構建企業的數據中心,為上層數據應用提供可靠的數據。數據開發工程師負責數據清洗、加工、分類等開發工作,並能響應數據分析師對數據提取的需求。數據挖掘工程師負責從數據中挖掘出有價值的數據,把這些數據錄入到數據中心,為各類應用提供高質量、有深度的數據。數據倉庫架構師負責數據倉庫整體架構設計和數據業務規劃工作。3)數據分析團隊主要負責為改善產品體驗設計和商業決策提供數據支持。業務分析師主要負責深入業務線,制定業務指標,反饋業務問題,為業務發展提供決策支持。建模分析師主要負責數據建模,基於業務規律和數據探索構建數據模型,提升數據利用效率和價值。2. 數據團隊的工作方式數據團隊的工作可以分成兩大部分,一部分是建設數據存儲和計算平台,另一部分是基於數據平台提供數據產品和數據服務。平台的建設者包括三種人群:基礎平台團隊對hadoop、spark、storm等各類大數據技術都非常熟悉,負責搭建穩定、可靠的大數據存儲和計算平台。數據平台團隊主要負責各類業務數據進行清洗、加工、分類以及挖掘分析,然後把數據有組織地存儲到數據平台當中,形成公司的數據中心,需要團隊具有強大的數據建模和數據管理能力。數據產品經理團隊主要是分析挖掘用戶需求,構建數據產品為開發者、分析師和業務人員提供數據可視化展示。平台的使用者也可以包括三種人群:數據分析團隊通過分析挖掘數據,為改善產品體驗設計和商業決策提供數據支持。運營、市場和管理層可以通過數據分析師獲得有建設性的分析報告或結論,也可以直接訪問數據產品獲得他們感興趣的數據,方便利用數據做決策。數據應用團隊利用數據平台團隊提供的數據開展推薦、個性化廣告等工作。3. 數據分析團隊的組織架構在整個大數據平台體系中的團隊:基礎平台、數據平台、數據應用和數據產品經理團隊都可以保持獨立的運作,只有數據分析團隊的組織架構爭議比較大。數據分析團隊一方面要對業務比較敏感,另一方面又需要與數據平台技術團隊有深度融合,以便能獲得他們感興趣的數據以及在數據平台上嘗試實驗復雜建模的可能。從他們的工作方式可以看出,數據分析團隊是銜接技術和業務的中間團隊,這樣的團隊組織架構比較靈活多變:1)外包公司自身不設立數據分析部門,將數據分析業務外包給第三方公司,當前電信行業,金融行業中很多數據分析類業務都是交給外包公司完成的。優勢: 很多情況下,可以降低公司的資金成本和時間成本;許多公司內部缺乏相關的知識與管理經驗,外包給專業的團隊有助於公司數據價值的體現 。劣勢:一方面外包人員的流動和合作變數,對數據的保密性沒有保證;另外一方面,外包團隊對需求的響應會比較慢,處理的問題相對通用傳統,對公司業務認知不如內部員工深入,創新較低。2)分散式每個產品部門獨立成立數據分析團隊,負責響應自己產品的數據需求,為業務發展提供決策支持。優勢:數據分析團隊與開發團隊、設計團隊以及策劃團隊具有共同的目標,團隊整體歸屬感強,績效考核與產品發展直接掛鉤,有利於業務的發展。劣勢:在業務規模比較小的情況下,數據分析師比較少,交流的空間也比較小。因為身邊的同事都不是該領域的人才,無法進行學習交流,所以成長空間會比較小,分析師的流失也會比較嚴重,最終陷入招募新人——成長受限——離職——招募新人的惡性循環。另一方面,每個產品團隊都零星地招募幾個分析師,整體來看給員工的感覺是公司並不是特別重視數據化運營的文化,對數據的認同感會被削弱,不利於公司建立數據分析平台體系。3)集中式數據分析團隊與產品團隊、運營團隊各自獨立,團隊的負責人具有直接向分管數據的副總裁或CEO直接匯報的許可權,團隊負責響應各業務部門的數據需求。優勢:分析團隊具有充分的自主權,可以專心建設好公司級別的數據平台體系,研究數據最具有價值的那些問題,有權平衡業務短期需求和平台長期需求直接的關系。另一方面,這種自上而下建立起來組織架構,可以向全體員工傳達數據在公司的重要位置,有利於建立數據化運營的文化。劣勢:產品業務團隊會覺得他們對數據的掌控權比較弱,一些業務數據需求得不到快速響應,認為分析團隊的反應太慢無法滿足業務發展的需要。隨著業務發展越來越大,產品團隊會自己招募分析師來響應數據需求,逐漸替代分析團隊的工作,這樣勢必會導致分析團隊的工作被邊緣化。4)嵌入式數據分析團隊同樣獨立於產品團隊存在,但只保留部分資深數據專家,負責招聘、培訓數據分析師,然後把這些人派遣到各產品團隊內部,來響應各類業務數據需求。優勢:團隊的靈活性比較好,可以根據公司各業務線的發展情況合理調配人力資源,重點發展的項目投入優秀的人才,一些需要關閉的項目人才可以轉移到其他項目中去。劣勢:分析師被嵌入到產品團隊內部,受產品團隊主管的領導,從而失去了自主權,導致淪落為二等公民。人事關系在公司數據分析團隊中,卻要被業務團隊主管考核,但業務團隊主管並不關心他們的職業發展,導致分析師的職業發展受到限制。那麼,到底採取哪一種組織架構比較合適呢?可以根據公司數據化運營進展的深度靈活採取一種或幾種方式。除了外包模式,其他組織架構我都經歷過,簡單來說,早期採用分散式、中期採用集中式、後期採用分散式或嵌入式以及兩則並存。早期:公司對數據體系的投入一般是比較謹慎的,因為要全面建設數據體系需要投入大量的人力和財力,公司不太可能還沒有看清楚局勢的情況下投入那麼多資源。所以,往往都是讓每個產品團隊自己配置分析師,能解決日常的業務問題就行。杭研院早期的網易雲閱讀、印像派等項目中就是採用的這種分散的模式。中期:隨著業務的發展、公司對數據的認識有所提高並且重視程度不斷加大,就開始願意投入資源來構建公司級別的數據體系。這個階段採用集中式有利於快速構建數據分析平台,為公司各個產品團隊提供最基礎的數據分析體系,能在未來應對業務的快速發展。杭研院花了兩年時間完成了這個階段的主要工作,並在網易雲音樂和易信產品發展階段起到了至關重要的作用。後期:一旦公司級別的數據分析平台構建完成,消除了早期分散模式中分析師缺少底層平台支持的窘境,他們能夠在分析平台上自助完成大量的數據分析工作。而且經歷過集中式階段的洗禮,公司上上下下對數據的認識都有了很大的提高。此時,在回到分散模式時,原先的很多弊端已基本消除,此外,採用嵌入模式也是可以的。目前杭研院在網易雲音樂、網易雲課堂、考拉海購等幾個產品中就是分散式和嵌入式並存的架構。總之,沒有最好的組織架構,只有適合自己的組織架構。
④ 傳統大數據存儲的架構有哪些各有什麼特點
數據源:所有大數據架構都從源代碼開始。這可以包含來源於資料庫的數據、來自實時源(如物聯網設備)的數據,及其從應用程序(如Windows日誌)生成的靜態文件。
實時消息接收:假如有實時源,則需要在架構中構建一種機制來攝入數據。
數據存儲:公司需要存儲將通過大數據架構處理的數據。一般而言,數據將存儲在數據湖中,這是一個可以輕松擴展的大型非結構化資料庫。
批處理和實時處理的組合:公司需要同時處理實時數據和靜態數據,因而應在大數據架構中內置批量和實時處理的組合。這是由於能夠應用批處理有效地處理大批量數據,而實時數據需要立刻處理才能夠帶來價值。批處理涉及到長期運轉的作業,用於篩選、聚合和准備數據開展分析。
分析數據存儲:准備好要分析的數據後,需要將它們放到一個位置,便於對整個數據集開展分析。分析數據儲存的必要性在於,公司的全部數據都聚集在一個位置,因而其分析將是全面的,而且針對分析而非事務進行了優化。
這可能採用基於雲計算的數據倉庫或關系資料庫的形式,具體取決於公司的需求。
分析或報告工具:在攝入和處理各類數據源之後,公司需要包含一個分析數據的工具。一般而言,公司將使用BI(商業智能)工具來完成這項工作,而且或者需要數據科學家來探索數據。
「大數據」 通常指的是那些數量巨大、難於收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。大數據存儲是將這些數據集持久化到計算機中。
⑤ 怎樣搭建企業大數據平台
步驟一:開展大數據咨詢
規劃合理的統籌規劃與科學的頂層設計是大數據建設和應用的基礎。通過大數據咨詢規劃服務,可以幫助企業明晰大數據建設的發展目標、重點任務和藍圖架構,並將藍圖架構的實現分解為可操作、可落地的實施路徑和行動計劃,有效指導企業大數據戰略的落地實施。
步驟二:強化組織制度保障
企業信息化領導小組是企業大數據建設的強有力保障。企業需要從項目啟動前就開始籌備組建以高層領導為核心的企業信息化領導小組。除了高層領導,還充分調動業務部門積極性,組織的執行層面由業務部門和IT部門共同組建,並確立決策層、管理層和執行層三級的項目組織機構,每個小組各司其職,完成項目的具體執行工作。
步驟三:建設企業大數據平台
基於大數據平台咨詢規劃的成果,進行大數據的建設和實施。由於大數據技術的復雜性,因此企業級大數據平台的建設不是一蹴而就,需循序漸進,分步實施,是一個持續迭代的工程,需本著開放、平等、協作、分享的互聯網精神,構建大數據平台生態圈,形成相互協同、相互促進的良好的態勢。
步驟四:進行大數據挖掘與分析
在企業級大數據平台的基礎上,進行大數據的挖掘與分析。隨著時代的發展,大數據挖掘與分析也會逐漸成為大數據技術的核心。大數據的價值體現在對大規模數據集合的智能處理方面,進而在大規模的數據中獲取有用的信息,要想逐步實現這個功能,就必須對數據進行分析和挖掘,通過進行數據分析得到的結果,應用於企業經營管理的各個領域。
步驟五:利用大數據進行輔助決策
通過大數據的分析,為企業領導提供輔助決策。利用大數據決策將成為企業決策的必然,系統通過提供一個開放的、動態的、以全方位數據深度融合為基礎的輔助決策環境,在適當的時機、以適當的方式提供指標、演算法、模型、數據、知識等各種決策資源,供決策者選擇,最大程度幫助企業決策者實現數據驅動的科學決策。
關於怎樣搭建企業大數據平台,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑥ 大數據的集成的基本原理有哪些
大數據的集成的基本原理具體如下:
1、大數據集成應用,首先是從企業內部的小數據開始起步的。
2、首先搭建企業內部的大數據平台,可以用開源框架,可以用Ambari集成工具實踐。
3、基於本企業的業務數據建立key指標,首先實現這些指標的准實時統計和可視化。
4、基於內外部的更多數據收集,建立企業需要的更高級的數據模型,從橫向和縱向進行拓展和深挖,達到指導企業戰術和戰略的預測與指導作用。
簡介
大數據(big data)指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據的來源:人類社會的所有行為,比如交易、教育、出行、娛樂、吃住。
大數據包含的元素:文字、圖片、視頻、音頻、生物信息、生產資料。
大數據的特點:數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。
大數據的價值:決策參考,比如用話畫像、精準營銷,產品升級,預測市場趨勢等;自動學習,比如頭條的精準推送,網路智能地圖,谷歌智能機器人等。
⑦ 大數據的生命周期的九個階段
大數據的生命周期的九個階段
企業建立大數據的生命周期應該包括這些部分:大數據組織、評估現狀、制定大數據戰略、數據定義、數據收集、數據分析、數據治理、持續改進。
一、大數據的組織
沒有人,一切都是妄談。大數據生命周期的第一步應該是建立一個專門預算和獨立KPI的「大數據規劃、建設和運營組織」。包括高層的首席數據官,作為sponsor,然後是公司數據管理委員會或大數據執行籌劃指導委員會,再往下就是大數據的項目組或大數據項目組的前身:大數據項目預研究團隊或大數據項目籌備組。這個團隊是今後大數據戰略的制定和實施者的中堅力量。由於人數眾多,建議引入RACI模型來明確所有人的角色和職責。
二、大數據的現狀評估和差距分析
定戰略之前,先要做現狀評估,評估前的調研包括三個方面:一是對外調研:了解業界大數據有哪些最新的發展,行業頂尖企業的大數據應用水平如何?行業的平均尤其是主要競爭對手的大數據應用水準如何?二是對內客戶調研。管理層、業務部門、IT部門自身、我們的最終用戶,對我們的大數據業務有何期望?三是自身狀況摸底,了解自己的技術、人員儲備情況。最後對標,作差距分析,找出gap。
找出gap後,要給出成熟度現狀評估。一般而言,一個公司的大數據應用成熟度可以劃分為四個階段:初始期(僅有概念,沒有實踐);探索期(已經了解基本概念,也有專人進行了探索和探討,有了基本的大數據技術儲備);發展期(已經擁有或正在建設明確的戰略、團隊、工具、流程,交付了初步的成果);成熟期(有了穩定且不斷成熟的戰略、團隊、工具、流程,不斷交付高質量成果)。
三、大數據的戰略
有了大數據組織、知道了本公司大數據現狀、差距和需求,我們就可以制定大數據的戰略目標了。大數據戰略的制定是整個大數據生命周期的靈魂和核心,它將成為整個組織大數據發展的指引。
大數據戰略的內容,沒有統一的模板,但有一些基本的要求:
1. 要簡潔,又要能涵蓋公司內外干係人的需求。
2. 要明確,以便清晰地告訴所有人我們的目標和願景是什麼。
3. 要現實,這個目標經過努力是能達成的。
四、大數據的定義
我認為:「數據不去定義它,你就無法採集它;無法採集它,你就無法分析它;無法分析它,你就無法衡量它;無法衡量它,你就無法控制它;無法控制它,你就無法管理它;無法管理它,你就無法利用它」。所以「在需求和戰略明確之後,數據定義就是一切數據管理的前提」。
五、 數據採集
1. 大數據時代的數據源很廣泛,它們可能來自於三個主要方面:現有公司內部網各應用系統產生的數據(比如辦公、經營生產數據),也有來自公司外互聯網的數據(比如社交網路數據)和物聯網等。
2.大數據種類很多,總的來講可以分為:傳統的結構化數據,大量的非結構化數據(比如音視頻等)。
3. 數據採集、挖掘工具很多。可以基於或集成hadoop的ETL平台、以互動式探索及數據挖掘為代表的數據價值發掘類工具漸成趨勢。
4. 數據採集的原則:在數據源廣泛、數據量巨大、採集挖掘工具眾多的背景下,大數據決策者必須清楚地確定數據採集的原則:「能夠採集到的數據,並不意味著值得或需要去採集它。需要採集的數據和能夠採集到的數據的"交集",才是我們確定要去採集的數據。」
六、數據處理和分析
業界有很多工具能幫助企業構建一個集成的「數據處理和分析平台」。對企業大數據管理者、規劃者來講,關鍵是「工具要滿足平台要求,平台要滿足業務需求,而不是業務要去適應平台要求,平台要去適應廠商的工具要求」。那麼這個集成的平台應該有怎樣的能力構成呢?它應該能檢索、分類、關聯、推送和方便地實施元數據管理等。見下圖:
七、 數據呈現
大數據管理的價值,最終要通過多種形式的數據呈現,來幫助管理層和業務部門進行商業決策。大數據的決策者需要將大數據的系統與BI(商業智能)系統和KM(知識管理)系統集成。下圖就是大數據的各種呈現形式。
八、 審計、治理與控制
1.大數據的審計、治理和控制指的是大數據管理層,組建專門的治理控制團隊,制定一系列策略、流程、制度和考核指標體系,來監督、檢查、協調多個相關職能部門的目標,從而優化、保護和利用大數據,保障其作為一項企業戰略資產真正發揮價值。
2.大數據的治理是IT治理的組成部分,大數據的審計是IT審計的組成部分,這個體系要統籌規劃和實施,而不是割裂的規劃和實施。
3.大數據的審計、治理與控制的核心是數據安全、數據質量和數據效率。
九、 持續改進
基於不斷變化的業務需求和審計與治理中發現的大數據整個生命周期中暴露的問題,引入PDCA等方法論,去不斷優化策略、方法、流程、工具,不斷提升相關人員的技能,從而確保大數據戰略的持續成功!
⑧ 大數據平台由哪5個部分組成簡述各個部分內容的特點
一、數據採集
ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
二、數據存取
關系資料庫、NOSQL、SQL等。
三、基礎架構
雲存儲、分布式文件存儲等。
四、數據處理
自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
五、統計分析
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
六、數據挖掘
分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)。
七、模型預測
預測模型、機器學習、建模模擬。
八、結果呈現
雲計算、標簽雲、關系圖等。