① 數據治理十步法
以下文章來源於談數據 ,作者石秀峰
1、找症狀,明確目標
任何企業實施數據治理都不是為了治理數據而治理數據,其背後都是管理和業務目標的驅動。企業中普遍存在的數據質量問題有:數據不一致、數據重復、數據不準確、數據不完整、數據關系混亂、數據不及時等。
由於這些數據問題的存在對業務的開展和業務部門之間的溝通造成了較大的困擾,產生了很大的成本;各異構的系統中數據不一致,導致業務系統之間的應用集成無法開展;數據質量差無法支撐數據分析,分析結果與實際偏差較大。然而要實現數據驅動管理、數據驅動業務的目標,沒有高質量的數據支撐是行不通的。
目標:企業實施數據治理的第一步,就是要明確數據治理的目標,理清數據治理的關鍵點。
技術工具:實地調研、高層訪談、組織架構圖。
輸入:企業數據戰略規劃,亟待解決的業務問題,經營發展需求,業務需求等;
輸出:數據治理的初步溝通方案,項目任務書,工作計劃表;
2、理數據,現狀分析
針對企業數據治理所處的內外部環境,從組織、人員、流程、數據四個方面入手,進行數據治理現狀的分析。
某企業數據治理痛點分析
組織方面:是否有專業的數據治理組織,是否明確崗位職責和分工。
人員方面:數據人才的資源配置情況,包括數據標准化人員、數據建模人員,數據分析人員,數據開發人員等,以及數據人才的佔比情況。
流程方面:數據管理的現狀,是否有歸口管理部門,是否有數據管理的流程、流程各環節的數據控制情況等;
數據方面:梳理數據質量問題列表,例如:數據不一致問題,數據不完整,數據不準確、數據不真實、數據不及時、數據關系混亂,以及數據的隱私與安全問題等。
目標:分析企業數據管理和數據質量的現狀,確定初步數據治理成熟度評估方案。
技術工具:實地訪談、調研表、數據質量問題評議表、關鍵數據識別方法論(例如:主數據特徵識別法);
輸入:需求及現狀調研表、訪談記錄、數據樣本、數據架構、數據管理制度和流程文件;
輸出:數據問題列表、數據U/C矩陣、數據治理現狀分析報告、數據治理評估方案;
3、數據治理成熟度評估
數據治理成熟度反映了組織進行數據治理所具備的條件和水平,包括元數據管理、數據質量管理、業務流程整合、主數據管理和信息生命周期管理。
CMMI DMM數據管理能力成熟度評估模型
數據治理成熟度評估是利用標準的成熟度評估工具結合行業最佳實踐,針對企業的數據治理現狀進行的客觀評價和打分,找到企業數據治理的短板,以便制定切實可行的行動方案。數據治理成熟度結束後形成初步的行動方案,一般包括數據治理戰略,數據治理指標,數據治理規則,數據治理權責。數據治理願景和使命是數據治理的整體目標;數據治理指標定義了數據治理目標的衡量方法;數據治理規則和定義包括與數據相關的政策、標准、合規要求、業務規則和數據定義等;權利和職責規定了由誰來負責制訂數據相關的決策、何時實施、如何實施,以及組織和個人在數據治理策略中該做什麼。
目標:結合業界標準的數據治理成熟度模型,根據企業管理和業務需求進行數據治理成熟的評估,形成初步的數據治理策略和行動路線。
技術工具:數據治理評估模型,例如:DCMM,CMMI DMM,IBM數據治理成熟度評估模型等;
輸入:第2步的輸入以及數據治理評估模型、數據治理評估工具(評估指標、打分表等);
輸出:數據治理評估結果,數據治理策略,初步的行動方案;
4、數據質量問題根因分析
數據治理的目的是解決數據質量問題提升數據質量,從而為數據驅動的數字化企業提供源動力,而提到數據質量問題,做過BI、數倉的同學一定知道,這是一個技術和業務「經常打架」相互推諉的問題。
某企業數據問題根因分析魚骨圖
產生數據質量問題的原因有很多,有業務方面的、有管理方面的、也有技術方面的,按照80/20法則,80%的問題是由20%的原因造成起的。所以,如果能夠解決這20%的問題,就能得到80%的改進。
目標:分析並找到數據質量問題產生的根本原因,制定行之有效的解決方案;
技術工具:頭腦風暴、5W1H、SWOT、因果(魚刺)圖、帕拉圖等;
輸入:數據問題列表、數據U/C矩陣、數據治理現狀分析報告、數據治理評估結果;
輸出:數據質量評估結果、對業務的潛在影響和根本原因。
5、業務影響及實施優先順序評估
通過數據治理成熟度評估,從組織、流程、制度、人員、技術等方面找到企業在數據治理的待提升的領域和環節,再通過數據質量根因分析找到數據質量問題發生的根本原因,進一步明確了數據治理的目標和內容。再接下來,就需要確定數據治理策略,定義數據治理的實施優先順序。
某企業主數據治理實施優先順序評估
不同的數據治理領域解決的是不同的問題,而數據治理的每個領域都有它的實施難點,對企業來說,需要從業務的影響程度,問題的緊急程度、實施的難易程度等多個維度進行分析和權衡,從而找到符合企業需求並滿足企業發展的方案。
目標:確定數據治理核心領域和支撐體系的建設/實施優先順序;
技術工具:四象限法則(分別從業務影響程度/實施難以程度,問題重要程度/問題緊急程度繪制優先順序矩陣)、KANO模型
輸入:數據治理成熟度能力評估結果、數據質量問題根因分析結果;
輸出:數據治理實施優先順序策略
6、制定數據治理行動路線和計劃
路線圖是使用特定技術方案幫助達到短期或者長期目標的計劃,用於新產品、項目或技術領域的開發,是指應用簡潔的圖形、表格、文字等形式描述技術變化的步驟或技術相關環節之間的邏輯關系。路線圖是一種目標計劃,就是把未來計劃要做的事列出來,直至達到某一個目標,就好像沿著地圖路線一步一步找到終點一樣,故稱路線圖。
某企業數據治理實施路線圖
企業數據治理的實施路線圖的制定是以企業數據戰略——願景和使命為綱領,以急用優先為原則,以分步實施為策略進行了整體設計和規劃。實施路線圖主要包含的內容:分幾個階段實施,每個階段的目標、工作內容、時間節點要求、環境條件等。筆者觀點:任何一個企業的數據治理都不是一蹴而就,一步到位的,需要循序漸進、持續優化!實施路線圖就是基於此產生的,因此說數據治理實施路線圖也是說服利益相關者支持的一個重要手段。
目標:確定數據治理的階段以及每個階段的目標;
技術工具:路線圖法
輸入:數據治理成熟度能力評估結果、業務影響及實施優先順序評估結果;
輸出:數據治理實施路線圖或稱階段目標計劃
7、制定數據治理詳細實施方案
數據治理詳細實施方案是用於指導主數據的各項實施工作,一般包括:數據治理核心領域、數據治理支撐體系、數據治理項目管理三個方面。
數據治理總體框架圖
數據治理核心領域包括:數據架構、數據服務、元數據管理、數據質量管理、數據標准管理、主數據管理、數據安全管理、數據生命周期管理。
數據治理支撐體系包括:組織(組織架構、組織層次、崗位職責)、制度(管控模式、規章制度、考核機制)、流程(歸口部門、管理流程、流程任務等)、技術(數據集成、數據清洗、數據開發、數據應用、數據運營、支撐平台、實施方案等)。
數據治理項目管理方案包括:項目組隊、項目計劃、質量保證計劃、配置管理計劃、培訓和售後等。
關於數據治理的核心領域,詳見筆者之前分享的數據治理框架解讀系列文章。
關於數據治理的支撐體系,詳見筆者之前分享的數據治理成功關鍵要素系列文章。
目標:基於數據質量根因分析、業務影響和實施優先順序評估結果,制定詳細實施方案;
輸入:業務影響及實施優先順序評估結果,行動路線和計劃;
輸出:數據治理詳細實施方案。
8、數據治理實施過程式控制制
數據治理實施過程式控制制是對數據治理項目的范圍控制、進度控制、質量控制和成本控制,通過對企業的各項資源的合理協調與利用,而達成的數據治理目標的各種措施。從項目管理的角度來講也是項目管理的黃金三角:范圍、時間、質量、成本。
任何項目的質量和進度是需要良好的項目管理來保證的,數據治理也一樣。與傳統的軟體工程項目不同,數據治理項目有著范圍邊界模糊、影響范圍廣、短期難見效、實施周期長等特點:
①范圍邊界模糊,數據治理涉及到的關鍵領域如元數據管理、數據質量管理、數據標准管理、主數據管理等很多是存在交叉的,邊界很難界定,例如:實施數據質量管理項目,會涉及元數據管理、數據標准管理等,同樣一個元數據管理項目也會涉及數據標准和數據質量。
②影響范圍廣,數據治理的實施不是一個部門能夠完成的,是需要從高級管理層、到各業務部門、信息部門通力協作,共同完成的;
③短期難見效,數據治理項目實施完成後,其數據治理的效果被每個業務點滴操作所「稀釋」,並不像其他項目,例如BI,那樣明顯的體現出來,所以主導數據治理的部門會經常遭到質疑。
④實施周期長,在沒有清晰的數據治理目標和范圍約定的情況下,數據治理是一個「無底洞」。所以,在實施數據治理項目之前制定好實施路線圖和詳細的實施方案就顯得格外重要(第6、7步)。
目標:通過對數據治理項目實施過程的進度控制、質量控制和成本控制以實現數據治理的目標;
技術工具:PP(項目計劃)、PMC(項目控制)、IPM(集成項目管理)、RSKM(風險管理)——CMMI過程域;
輸入:6-7步的輸出:數據治理實施路線圖,數據治理詳細實施方案;
輸出:各項項目控制措施,例如:項目計劃、SOW、項目風險列表、項目報告、項目總結等;
9、監控評估數據治理實施效果
隨著大數據技術的不斷發展,應當從企業的全局數據治理環境的角度,明確數據治理關鍵技術運用及其標准規范,構建成效評估指標體系,進行治理效果評價;並運用數據治理能力成熟度模型再次評估,界定數據管理層次,從而使得跨系統、跨業務、跨部門的數據治理體系的建設與實施能夠通過各方協作順利進行,實現卓越數據治理,進而通過數據驅動業務、數據驅動管理和運營以實現企業的降本、增效、提質、創新。
某企業數據治理看板(數據已脫敏)
數據治理成效評估指標體系應根據企業及數據治理項目的實際情況制定,一般包括:時間性、數量性、完整性、准確性四個維度。
①時間性即數據的及時性。該維度主要通過源業務系統數據接入的上報及時性、接入及時性等方面進行核對。通過分析月指標、周指標、日指標的數據及時率,得出在規定時間和頻度周期內接入系統的比例,以此反映數據接入及時性。
②數量性。該維度是從數據存量,數據增量,數據訪問量,數據交換量、數據使用量等指標反映數據的使用情況,可以分為月度指標、周指標、日指標、時分指標等。
③准確性。這個維度主要由各類數據中邏輯的准確性、數據值的准確性、數據頻段和欄位之間的准確性以及數據的精度等內容組成。該准確率同樣包括:月度、每周、每日等准確率指標。
④完整性。此維度主要以單元維度完整性、數據業務維度組合完整性、索引值完整性等不同方面進行核對,是驗證數據質量完整性的主要組成部分,包括月度指標、周指標、日指標數據的完整性等內容。
目標:檢驗各項數據治理指標的落實情況,查漏補缺,夯實數據治理效果;
技術工具:數據治理效果的評價指標體系、各種數據圖表工具;
輸入:數據治理效果評估指標;
輸出:數據治理評估的月報、周報、日報等;
10、數據治理持續改進
數據治理模式應業務化、常態化,不應是一個項目、「一陣風」的模式。
圖片源自互聯網
數據治理工作應向企業生產、銷售業務一樣作為一項重點的業務工作來開展,構建專業的數據治理組織,設置合適的崗位權責,建立相應的管理流程和制度,讓數據標准貫徹到每個業務環節,形成一種常態的工作。在筆者看來,在數據源頭加強企業數據的治理,讓常態化治理成為日常業務,才能從根本上徹底解決企業數據質量的各種問題,讓數據真正轉化為企業資產,以實現數據驅動流程優化、數據驅動業務創新、數據驅動管理決策的目標。
目標:數據治理常態化,持續提升數據質量,驅動流程優化和管理創新。
輸入:持續的、規范的、標準的各項業務操作;數據治理監控的各項指標和報告;
輸出:持續輸出的高質量的數據;
博主觀點:原理大家都懂,實踐時困難重重。在專家的指導下,應用適當的工具可讓理論轉化為現實。華矩科技,專業的數據治理服務與技術提供商。
② 企業如何有效的進行主數據管理
企業主數據治理主要分為4個階段:主數據規劃階段、主數據標准梳理階段、主數據治理階段、主數據平台落地階段。
1.主數據規劃階段
主數據規劃階段是主數據管理的第一個階段,這個階段的工作一般都是主數據管理的頂層工作。該階段的工作包括制定主數據管理組織、完善主數據管理制度、搭建主數據管理體系,從而保證主數據的穩定運行。
2.主數據標准梳理階段
主數據標准梳理階段需要梳理主數據分類標准、主數據編碼標准及主數據屬性標准。需要調研收集企業現有標准、參考相關國家/行業標准,做差異及對標分析,從而找到現有標准不足,確定新標準的內容。
3.主數據治理階段
主數據治理階段需要梳理並檢查現有數據中的缺失數據及雜訊數據,發現現有數據的錯誤;並通過清洗、質檢規則,完成歷史主數據的治理工作,保障主數據管理平台鋪地數據的准確性。
4.主數據平台落地階段
主數據落地階段也是主數據治理的最後一步。通過可靠的主數據管理平台,錄入主數據標准,實現主數據規范化管理。這里推薦億信主數據管理平台。
億信主數據管理平台由北京億信華辰軟體有限責任公司自主研發,覆蓋主數據標准;主數據質量;主數據採集、申請、新增、變更、審核、生效、失效、分發等全生命周期管理。全程「零」編碼,幫助用戶高效完成主數據管理流程制定;豐富的可視化報表,完成主數據全生命周期監控。億信主數據管理平台通過其高可用性幫助企業快速搭建主數據管理平台,保障各業務系統主數據的一致性,提高企業運營效率
③ 電力企業如何做好數據分析呢
根據電力企業做好的分數據分析,我們可以通過充分的了解電力,做一個詳細的檢查報告,然後再做好數據分析。
④ 企業如何做好數據挖掘
第一、是商業理解,在我看來,這個商業理解就是要把業務問題轉換成數據挖掘問題,目前數據挖掘的理論概念中,一般都包括分類,聚類,回歸,關聯規則這幾類,這需要對這幾類方法有一定的理解,才能有效地轉換。
第二、數據理解,數據描述了我們的業務,在這一步,我們必須找准對應關系,所面臨的業務問題,有哪些數據可以用,我們做的是定量分析,沒有數據顯然是得不到模型的,知道哪裡數據和業務關系緊密,也能讓我們的分析事半功倍。
第三、數據准備,實際上數據挖掘的大部分工作都在這一步,往往到了這一步就發現理想很美好,但現實很骨感,數據質量令人堪憂,缺失值,異常值接踵而來,這是數據的錯誤,還有為了適應演算法,需要將數據去量綱化,類型轉換,去相關性,降維等等操作,這一步將消耗分析人員大量精力。
第四、建模,這一步需要對演算法理解透徹,要了解數據特徵和演算法特點,才能選擇最優演算法,以及最優參數,很多演算法的使用是有假設條件的,必須仔細掌握,得到的模型才會合理,另外,還要考慮業務需要,如果模型必須能解釋,那就要選擇生成式模型演算法。
第五、評價,就是模型評估了,各種評估指標的側重點是不一樣的,要以最能反應業務的指標為准,另外,評估數據的選擇也很關鍵,要盡可能的模擬實際生產環境,才能評估模型的性能。