導航:首頁 > 數據分析 > 如何增加數據的質量

如何增加數據的質量

發布時間:2023-07-01 16:04:14

Ⅰ 提高數據質量的步驟和措施

提高數據質量的步驟和措施

由於大多數系統和應用程序會持續不斷接收到新數據,數據量也在不斷增加,因此確保數據質量並不是一次就能完成的。所有企業都應該使用一種反復進行的階段性過程來管理數據質量,此過程包括數據質量評估、規劃以及策略的選擇和實施。

第一步對數據質量進行評估。評估當前的數據質量狀態是第一步。對數據質量進行評估能幫助企業准確地了解數據的內容、質量和結構。主管人員參與數據質量評估以及分析在數據檢查過程中發現的問題對於數據質量評估來說都很重要。在最有效的數據質量評估中,所有問題都將按照對業務影響從大到小的順序列出,這將幫助IT機構節省項目成本。

第二步,制訂數據質量計劃。徹底了解企業數據的內容和質量後,接下來的步驟是制訂一個計劃,來修改當前的錯誤並避免未來錯誤的發生。有效的計劃不但可以提高企業當前所有應用程序中數據的質量,還將制定一些方式以確保新應用程序從一開始就遵循數據質量規則。

第三步,選擇和實施數據質量策略。選擇改善企業數據質量的策略,要求決策者權衡每個數據質量計劃的成本以及該策略產生的影響。目前的策略類型有兩種: 在企業輸入數據時提高數據質量的方法稱為“上游”方法,而從運營系統提取數據的應用程序(如數據倉庫)中改善數據質量的方法是“下游”方法。

上游策略研究當前應用程序的邏輯、數據和流程,解決檢查過程中發現的異常情況。此策略可能涉及到更改應用程序邏輯、添加更好的表驗證、改善與數據輸入相關的流程,它致力於企業數據的高准確性。另外,此策略還要求使用應用程序本身附帶的數據質量功能。

下游策略解決目標應用程序或數據倉庫(而非數據源)中的數據質量問題。由於數據可以根據需要隨時進行修改,所以企業能夠在流程(尤其是數據轉換、名稱和地址清洗以及查找驗證)中改善數據質量。下游策略僅為目標應用程序或數據倉庫改善數據質量,但與上游策略相比,它的實施過程更簡單,成本更低。

1. 建立數據的標准,明確數據的定義。

通常,獨立的應用系統會有一個比較模糊的、有時也會有比較清晰的數據標准和數據定義。為了保證系統的正常運行,這些系統的用戶必須在數據的標准和數據的定義上達成一致。不過,這些標准和定義大多數時候與企業中其他系統中的數據標准和定義並不一致。因此,需要從整個企業的角度出發,建立統一的數據標准和數據定義,同時,整個企業必須就這個數據標准和數據定義達成共識。這一句話說起來容易做起來難。因為人通常本能地會拒絕改變,改變數據標准和定義並不是輕而易舉的。為此,強烈建立在企業中除了設立一個高管級別的數據質量管理委員會外,還需要選定一個執行能力強的項目負責人,需要他推動相關人員接受新的數據標准和定義。

在具體建立新的數據標准和數據定義時,需要仔細權衡,哪些定義和標準是出於企業內部的原因(比如出於方便、習慣等)制訂的,哪些定義和標準是因為要有效反映外部的真實世界而制訂的。相對而言,前者更容易執行一些。

2. 建立一個可重復的數據收集、數據修改和數據維護流程。

數據管理面臨的兩個主要挑戰是企業本身的復雜性和身份信息不斷變化。這兩個客觀原因的存在意味著企業的數據質量保證行動永遠沒有結束之日,因此,企業在制訂數據質量的保證措施和數據質量指標時,必須保證這些措施和指標能夠不斷重復。

3. 在數據轉化流程中設立多個性能監控點。

數據的質量高低可以根據最終用戶的需求來評價,也可以通過與同類數據源的比較來評價,還可以通過與前一階段的數據質量進行比較來評價。但在制訂數據質量的戰略時,比較理想的辦法還是根據最終用戶的需求來進行。不過這里存在一個問題是,等到最終用戶拿到數據時再針對數據的問題進行修正已經太遲了。一個有效的數據質量保證辦法是在每當數據發生轉換後就與前一時期進行比較,從而對數據質量進行評估。如果此前所採用的數據質量改進方法有助於提高最終用戶的滿意度,那麼,這些中間指標的達標也預示著項目的最終成功。

4. 對流程不斷進行改善和優化。

我們常常聽到有人說,他們制訂了很多辦法來迅速而且大幅度提升數據的質量,但很少聽說最後他們能真正得到滿意的結果。其原因就在於數據的'質量改進絕非一朝一夕的事情,而是一個持續的過程。正確的辦法是通過一個不斷改進的流程,持續不斷地排除錯誤、對數據進行整合和標准化,最後達到流程的自動化,從而降低數據質量保證計劃的總體開銷。實際上,排除錯誤、數據整合和數據標准化從來就不是一件容易的事情。數據質量管理計劃的負責人將配合公司高管組成的數據質量管理委員會來保證這個流程的順利執行。要注意的是,作為該項目的負責人,不能墨守成規,僅僅因為自己以前一向採用某種方法,就要求別人也必須採用這一方法,特別是當發現這些方法成本高昂的時候,就應該考慮換一種方式了。

5. 把責任落實到人。

通常,我們認為那些與數據的產生、維護相關的人員是負責任的,但是,很有可能,他們有很多其他的工作要做,因此作為數據質量的負責人光有善良的想法是難以提高數據的質量,很有可能一輩子也達不到目標。對於那些負責數據的產生、數據的合理化以及對數據進行清理和維護的人,應該給他們的活動制訂明確的指標,這樣他們才能真正理解人們到底希望他們達到什麼目標。更重要的,他們還需要針對這些指標細化對他們自己的要求,當然,他們會因為達到或者超過這些指標而得到獎勵。其中,一個執行力強的負責人的價值體現出來,他會針對具體情況適時調整數據質量的目標。

最後,再次強調考慮與數據管理和數據質量的改進項目有關的人的因素,他們的行為是非常重要的。從某種程度上說,要比具體選擇什麼軟體要重要得多。上述5點有助於幫助組織規范數據質量管理中與人有關的流程。

;
閱讀全文

與如何增加數據的質量相關的資料

熱點內容
java小游戲實例 瀏覽:775
電腦系統能升級64 瀏覽:591
數據如何導入進sql 瀏覽:324
iosqq怎麼發文件夾 瀏覽:285
編程出社會後能做什麼工作 瀏覽:73
為什麼說數據層是里子呢 瀏覽:171
eset官方卸載工具 瀏覽:803
手機百度我在哪個文件夾 瀏覽:646
lumia925拍照對蘋果6 瀏覽:599
oraclelinux711gr2 瀏覽:516
公文格式圖片紅頭文件 瀏覽:430
word文件按標題批量改名工具 瀏覽:321
linuxversionh 瀏覽:728
編程為什麼學覺得有什麼好處 瀏覽:96
公眾號打包網頁發布找不到文件 瀏覽:522
qq頭像90後一男一女 瀏覽:92
proteus中如何單片機編程 瀏覽:26
excel打開如何顯示文件名稱 瀏覽:400
為什麼手機上不能打開excel文件 瀏覽:688
libsvmmatlab代碼 瀏覽:332

友情鏈接