『壹』 大數據的生命周期的九個階段
大數據的生命周期的九個階段
企業建立大數據的生命周期應該包括這些部分:大數據組織、評估現狀、制定大數據戰略、數據定義、數據收集、數據分析、數據治理、持續改進。
一、大數據的組織
沒有人,一切都是妄談。大數據生命周期的第一步應該是建立一個專門預算和獨立KPI的「大數據規劃、建設和運營組織」。包括高層的首席數據官,作為sponsor,然後是公司數據管理委員會或大數據執行籌劃指導委員會,再往下就是大數據的項目組或大數據項目組的前身:大數據項目預研究團隊或大數據項目籌備組。這個團隊是今後大數據戰略的制定和實施者的中堅力量。由於人數眾多,建議引入RACI模型來明確所有人的角色和職責。
二、大數據的現狀評估和差距分析
定戰略之前,先要做現狀評估,評估前的調研包括三個方面:一是對外調研:了解業界大數據有哪些最新的發展,行業頂尖企業的大數據應用水平如何?行業的平均尤其是主要競爭對手的大數據應用水準如何?二是對內客戶調研。管理層、業務部門、IT部門自身、我們的最終用戶,對我們的大數據業務有何期望?三是自身狀況摸底,了解自己的技術、人員儲備情況。最後對標,作差距分析,找出gap。
找出gap後,要給出成熟度現狀評估。一般而言,一個公司的大數據應用成熟度可以劃分為四個階段:初始期(僅有概念,沒有實踐);探索期(已經了解基本概念,也有專人進行了探索和探討,有了基本的大數據技術儲備);發展期(已經擁有或正在建設明確的戰略、團隊、工具、流程,交付了初步的成果);成熟期(有了穩定且不斷成熟的戰略、團隊、工具、流程,不斷交付高質量成果)。
三、大數據的戰略
有了大數據組織、知道了本公司大數據現狀、差距和需求,我們就可以制定大數據的戰略目標了。大數據戰略的制定是整個大數據生命周期的靈魂和核心,它將成為整個組織大數據發展的指引。
大數據戰略的內容,沒有統一的模板,但有一些基本的要求:
1. 要簡潔,又要能涵蓋公司內外干係人的需求。
2. 要明確,以便清晰地告訴所有人我們的目標和願景是什麼。
3. 要現實,這個目標經過努力是能達成的。
四、大數據的定義
我認為:「數據不去定義它,你就無法採集它;無法採集它,你就無法分析它;無法分析它,你就無法衡量它;無法衡量它,你就無法控制它;無法控制它,你就無法管理它;無法管理它,你就無法利用它」。所以「在需求和戰略明確之後,數據定義就是一切數據管理的前提」。
五、 數據採集
1. 大數據時代的數據源很廣泛,它們可能來自於三個主要方面:現有公司內部網各應用系統產生的數據(比如辦公、經營生產數據),也有來自公司外互聯網的數據(比如社交網路數據)和物聯網等。
2.大數據種類很多,總的來講可以分為:傳統的結構化數據,大量的非結構化數據(比如音視頻等)。
3. 數據採集、挖掘工具很多。可以基於或集成hadoop的ETL平台、以互動式探索及數據挖掘為代表的數據價值發掘類工具漸成趨勢。
4. 數據採集的原則:在數據源廣泛、數據量巨大、採集挖掘工具眾多的背景下,大數據決策者必須清楚地確定數據採集的原則:「能夠採集到的數據,並不意味著值得或需要去採集它。需要採集的數據和能夠採集到的數據的"交集",才是我們確定要去採集的數據。」
六、數據處理和分析
業界有很多工具能幫助企業構建一個集成的「數據處理和分析平台」。對企業大數據管理者、規劃者來講,關鍵是「工具要滿足平台要求,平台要滿足業務需求,而不是業務要去適應平台要求,平台要去適應廠商的工具要求」。那麼這個集成的平台應該有怎樣的能力構成呢?它應該能檢索、分類、關聯、推送和方便地實施元數據管理等。見下圖:
七、 數據呈現
大數據管理的價值,最終要通過多種形式的數據呈現,來幫助管理層和業務部門進行商業決策。大數據的決策者需要將大數據的系統與BI(商業智能)系統和KM(知識管理)系統集成。下圖就是大數據的各種呈現形式。
八、 審計、治理與控制
1.大數據的審計、治理和控制指的是大數據管理層,組建專門的治理控制團隊,制定一系列策略、流程、制度和考核指標體系,來監督、檢查、協調多個相關職能部門的目標,從而優化、保護和利用大數據,保障其作為一項企業戰略資產真正發揮價值。
2.大數據的治理是IT治理的組成部分,大數據的審計是IT審計的組成部分,這個體系要統籌規劃和實施,而不是割裂的規劃和實施。
3.大數據的審計、治理與控制的核心是數據安全、數據質量和數據效率。
九、 持續改進
基於不斷變化的業務需求和審計與治理中發現的大數據整個生命周期中暴露的問題,引入PDCA等方法論,去不斷優化策略、方法、流程、工具,不斷提升相關人員的技能,從而確保大數據戰略的持續成功!
『貳』 如何搭建優秀的大數據團隊
這個首先需要專業的人才,可以找一些學習大數據這方面的學生,然後找一些學徒,當然最好是對統計、數據分析和對數字敏感的人
做為管理者要學會管理,定下目標和方向,然後不斷進行測試研發,分析。
『叄』 傳統企業是否需要搭建大數據團隊
是否需要搭建大數據團隊要看這幾個問題了:
1、業務部門有無大數據訴求?這里並不是說業務部門希望使用什麼大數據技術,而是說業務部門希望某個模塊希望更「智能」,例如有商品推薦、有實時告警、有更快即時的生產經營分析報表……,種種訴求都是業務訴求,但是既有的技術無法支撐,這時候就需要引入大數據技術;通常,業務訴求是大數據的出發點,也是最終目標,也是讓老闆看到「價值」的地方,如果搭建了大數據團隊,研究了大數據技術,卻沒有解決業務問題,老闆會覺得這是成本的浪費。
2、業務部門的訴求細化:業務需求決定技術架構,搭建大數據團隊之前,需要先了解業務部門的規劃和訴求,基於這個訴求再來設計技術架構,技術架構的設計可以與團隊搭建並行,二者相輔相成,大數據的技術框架非常多,沒有什麼人是精通所有框架的,一般只能精通其中的一兩門就不錯了。
3、在技術架構設計之前:是否採用獨立搭建大數據平台?是否可以採用公有雲平台?獨立搭建的特點是數據自有,且可以深入研究大數據技術,比較適合規模較大,技術能力強的企業;採用公有雲平台,特點是大數據利用的門檻大大降低,已經有封裝好的,比較成熟穩定的大數據平台,比如阿里雲的數加平台,騰訊雲的數智方略等,其中阿里雲的技術相對成熟度高一些;
4、技術架構的設計:如果確定不採用公有雲的話,就是自己搭建大數據平台,那麼就需要理清楚以下幾個問題:數據在哪裡?需要支撐多大量的數據計算?需要做哪些數據應用?支撐這些數據應用看需要如何做數據治理和分析挖掘?……這里是技術架構了,這並不矛盾,就像剛才說的,技術架構與人才團隊建設需要並行。
5、已有團隊的人員組成情況:筆者參與的多個項目中都會遇到,對接的客戶都是傳統企業,對ERP技術挺了解的,寫SQL也還行,對傳統數倉有一定了解,但是對於最新的大數據技術棧就很不了解了,解決辦法有2種,第一是招人,從外面招聘大數據開發或架構師,第二是直接采購商用的易用的大數據平台。
對第一種方法有好處也有壞處:好處是招來的人是自有人員,相當於企業自己掌握了這門技術,這種比較適合金融、運營商或財力雄厚、IT基礎設施比較好的大型企業;弊端是招聘可能並不容易,大數據的優秀人才一般集中在互聯網領域,跳槽到傳統企業的可能並不多。
第二種方法是采購已有的商用平台。市面上有很多成熟的商用大數據平台,Cloudera、星環、華為、袋鼠雲、亞信等等,都有對應的產品線,均適用於傳統企業。
以袋鼠雲大數據平台產品數棧為例說明下商用大數據平台特點:
1、兼容性強:基於開源Spark(離線)、Flink(實時)計算引擎,綁定性不強,很多企業擔心被某一家供應商綁定,但數棧完全基於開源,不存在這個問題;
2、簡單易用:數棧包含數據開發套件、數據計算引擎(Spark、Flink)、數據治理套件(數據地圖、數據質量、數據模型)、數據應用引擎(數據API),覆蓋了企業內的數據採集、數據統計分析與挖掘、數據治理、數據開放的全鏈路,並同時覆蓋離線分析與實時分析,滿足企業內的各種數據處理需求。
3、性價比高:很多傳統企業的數據量其實並不是特別大,例如幾百GB、1,2TB,數棧最小支持3台虛擬機部署,與其他廠商動輒幾十、上百個節點相比,成本可以降低很多;數棧與搭建大數據團隊的關系又是怎樣的呢?——數棧是開發團隊的生產力工具,有了它可以讓開發團隊用大數據平台用的更爽,更好,解決需求的速度更快,同時基於開源的技術,開發人員編寫MapRece代碼進行運行,可以在數棧上面配置任務調度、依賴關系,查看運行日誌,也加快了團隊的成長速度,因此數棧的引入,其實是開發團隊的一個好幫手,讓團隊更有效率。
『肆』 做一個大數據項目一個團隊一般如何分工的
今年我們項目組剛好入手一個教育大數據的項目,我們是研究一些教育大數據,從中挖掘出一些跟教育相關的因果關系一達到對這些數據進分析、處理,並從中挖掘出有價值的信息進行改善教育模式、提升教育質量的目的。我們項目組當時分組情況如下:信息採集組、數據清洗組、數據融合組、數據挖掘組、數據可視化組。
根據每組的名稱很好理解,信息採集組主要是通過網路爬蟲來採集數據,當然還可以根據業務需求,通過不同的方式來採集數據;數據清洗組主要就是把一些無效的臟數據找出來剔除或者替換,任務量其實很大,因為爬來的數據臟數據量很大,這個組的工作周期一般很長,任務也很重;數據融合組主要就是把爬來的課程信息把相似的歸類,有上下級關系的就按照子類父類的關系列好,這一組的工作非常不好完成,目前我們做的融合效果不算好,想融合好算是一個難點。數據挖掘組就是拿到可用的數據之後通過數據挖掘演算法,去研究之前設定好的影響因子之間的因果關系,主要的分類演算法有決策樹、貝葉斯分類、基於規則的分類、神經網路、持向量機 、懶惰學習演算法中的K-最近鄰分類和基於案例的推理等演算法;數據可視化組顧名思義就是把數據挖掘組的成果可視化展示,這樣可以直觀的看到數據之間的關系,並利用數據分析和開發工具發現其中未知信息的處理過程。
『伍』 企業如何建立大數據部門
企業如何建立大數據部門
企業如何建立大數據部門,很多公司老闆想組建一個大數據團隊,我們需要對於未來數據中心的人員安排如何,怎麼樣工資體系比較合適的?」反過來,有很多剛畢業的大學同學也在問我,「我這個專業需要撐握那些技術才能被企業看上。」當然也有,工作三年以上的小夥伴問我,未來自己的職業規化是怎麼樣的,這個我以後再跟大家一起來探討。
現在大數據很熱,很多大型互聯網公司對於數據部門配製都可以跟財務系統的人員相當了,也有很多初創企業拿到融資的移動互聯網企業,在運營穩定的情況下,已經開始對於大數據分析團隊開始進行配置,市場上能稱的上數據分析師的人才差不多在10萬左右,未來預計在1000萬左右規模會跟數據分析相關人員需求,而大學對於大數據分析這塊專業的缺失,根本來說沒有辦法能承擔一個數據分析師的角色,所以這塊數據分析師的需求會強烈,待遇會高。有同學擔心數據分析師是否未來人工智慧的發展起來,會出現失業的情況,這個相信擔心是多的,因為商業的決策,從來都是人的事,即使未來技術的進步,也不可能會讓機器來代替人的決定。
數據分析師是企業不僅是數據分析工人其實也是數據分析體系的設計師,開始時企業會有很多一些臨時的需求,比如市場部需要數據分析提一些數據做一些表格,這樣很容易會產生很多的表哥表妹的問題,覺得自已的意義不是很大,但是在我看來一個好的數據分析師,他應該是半個市場運行人員有著很好的溝通能力,80%的工作量是業務與市場部門提出的需求,在精通企業業務邏輯運作前提下再結合數據中出現的問題給於業務提出合理的建議,當然現在可能更多的是事後評估與監控的作用。
對於初級數據分析師,如果這個小夥子對於基本的統計模型與數據提供,特別SQL與EXCEL能過關,這個人差不多能用了,但是關鍵點就是這個侯選人是否有著很好的邏輯能力與溝通能力,如果是內向型的,其實未來做起來會很難,因為數據分析師的技術的門檻不高,但是否能對於業務敏感,對於數據敏感,及是否能把分析出來的東西在業務方進行落地,這就是數據分析師的價值。中級數據分析師需要三年以上,就需要他能對於業務進行建模那麼就需要他對於一些基本模型熟悉及對於統計軟體熟悉,當然如果能走的更遠的小夥伴需要能對於自已設計模型能力,怎麼進入數據指導業務的階段。
對於數據部門人員的設計時,最好是把數據分析人員分別跟各個業務線進行對接,最忌諱數據倉庫人員與業務部門對接,這樣很容易使數據部門流於形式,主要的原因數據倉庫人員沒有對於業務方提供需求進行分析,因為有時業務部門在需要數據分析都不知道自已要什麼,所以很容易對於數據團隊產生很負面的影響。因為數據中心說開了,畢竟是一個服務部門很難直接產生價值,所以需要跟業務與市場人員進行密切的協作才能產生價值,最怕就是數據中心自已在做產品,結果很辛苦卻沒有產出。那麼數據中心的團隊的負責人,是數據分析人員還是數據倉庫人員出身的,從我這邊長期的觀察來看,如果是中小型的企業,最好是商務智能出身的比較好一些,主要的原因能滿足初級對於數據分析系統,未來也會對於數據分析有一個不錯的了解,如果企業技術開發能力不錯,最好是數據分析出身,對於實現數據產生價值,有著很深遠的影響。
『陸』 大數據時代,一個理想的數據團隊到底應該是怎樣的
大數據復(big data),是指無法在可承受制的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
根據維基網路的定義,大數據是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
-
『柒』 如何建立以人工智慧和大數據為支撐的技術運營團隊
人工智慧需要有大數據支撐
人工智慧主要有三個分支:
1.基於規則的人工智慧;
2.無規則,計算機讀取大量數據,根據數據的統計、概率分析等方法,進行智能處理的人工智慧;
3.基於神經元網路的一種深度學習。
基於規則的人工智慧,在計算機內根據規定的語法結構錄入規則,用這些規則進行智能處理,缺乏靈活性,不適合實用化。因此,人工智慧實際上的主流分支是後兩者。
而後兩者都是通過「計算機讀取大量數據,提升人工智慧本身的能力/精準度」。如今,大量數據產生之後,有低成本的存儲器將其存儲,有高速的CPU對其進行處理,所以才有了人工智慧後兩個分支的理論得以實踐。由此,人工智慧就能做出接近人類的處理或者判斷,提升精準度。同時,採用人工智慧的服務作為高附加值服務,成為了獲取更多用戶的主要因素,而不斷增加的用戶,產生更多的數據,使得人工智慧進一步優化。
大數據挖掘少不了人工智慧技術
大數據分為「結構化數據」與「非結構化數據」。
「結構化數據」是指企業的客戶信息、經營數據、銷售數據、庫存數據等,存儲於普通的資料庫之中,專指可作為資料庫進行管理的數據。相反,「非結構化數據」是指不存儲於資料庫之中的,包括電子郵件、文本文件、圖像、視頻等數據。
目前,非結構化數據激增,企業數據的80%左右都是非結構化數據。隨著社交媒體的興起,非結構化數據更是迎來了爆發式增長。復雜、海量的數據通常被稱為大數據。
但是,這些大數據的分析並不簡單。文本挖掘需要「自然語言處理」技術,圖像與視頻解析需要「圖像解析技術」。如今,「語音識別技術」也不可或缺。這些都是傳統意義上人工智慧領域所研究的技術。