導航:首頁 > 數據分析 > 標注數據如何管理質量

標注數據如何管理質量

發布時間:2023-08-16 05:06:04

A. 數據質量管理5要素分析

數據質量管理5要素分析

藉助客戶數據整合(CDI)軟體和主數據管理(MDM)軟體的幫助,人們可以把上述各種在不同時期因為不同目的而生成的數據進行一定程度的整合和清理,但是要想真正長期保證數據的高質量,還必須從以下5個方面著手。

1. 建立數據的標准,明確數據的定義。通常,獨立的應用系統會有一個比較模糊的、有時也會有比較清晰的數據標准和數據定義。為了保證系統的正常運行,這些系統的用戶必須在數據的標准和數據的定義上達成一致。不過,這些標准和定義大多數時候與企業中其他系統中的數據標准和定義並不一致。因此,需要從整個企業的角度出發,建立統一的數據標准和數據定義,同時,整個企業必須就這個數據標准和數據定義達成共識。這一句話說起來容易做起來難。因為人通常本能地會拒絕改變,改變數據標准和定義並不是輕而易舉的。為此,強烈建立在企業中除了設立一個高管級別的數據質量管理委員會外,還需要選定一個執行能力強的項目負責人,需要他推動相關人員接受新的數據標准和定義。

在具體建立新的數據標准和數據定義時,需要仔細權衡,哪些定義和標準是出於企業內部的原因(比如出於方便、習慣等)制訂的,哪些定義和標準是因為要有效反映外部的真實世界而制訂的。相對而言,前者更容易執行一些。

2. 建立一個可重復的數據收集、數據修改和數據維護流程。數據管理面臨的兩個主要挑戰是企業本身的復雜性和身份信息不斷變化。這兩個客觀原因的存在意味著企業的數據質量保證行動永遠沒有結束之日,因此,企業在制訂數據質量的保證措施和數據質量指標時,必須保證這些措施和指標能夠不斷重復。

3. 在數據轉化流程中設立多個性能監控點。數據的質量高低可以根據最終用戶的需求來評價,也可以通過與同類數據源的`比較來評價,還可以通過與前一階段的數據質量進行比較來評價。但在制訂數據質量的戰略時,比較理想的辦法還是根據最終用戶的需求來進行。不過這里存在一個問題是,等到最終用戶拿到數據時再針對數據的問題進行修正已經太遲了。一個有效的數據質量保證辦法是在每當數據發生轉換後就與前一時期進行比較,從而對數據質量進行評估。如果此前所採用的數據質量改進方法有助於提高最終用戶的滿意度,那麼,這些中間指標的達標也預示著項目的最終成功。

4. 對流程不斷進行改善和優化。我們常常聽到有人說,他們制訂了很多辦法來迅速而且大幅度提升數據的質量,但很少聽說最後他們能真正得到滿意的結果。其原因就在於數據的質量改進絕非一朝一夕的事情,而是一個持續的過程。正確的辦法是通過一個不斷改進的流程,持續不斷地排除錯誤、對數據進行整合和標准化,最後達到流程的自動化,從而降低數據質量保證計劃的總體開銷。實際上,排除錯誤、數據整合和數據標准化從來就不是一件容易的事情。數據質量管理計劃的負責人將配合公司高管組成的數據質量管理委員會來保證這個流程的順利執行。要注意的是,作為該項目的負責人,不能墨守成規,僅僅因為自己以前一向採用某種方法,就要求別人也必須採用這一方法,特別是當發現這些方法成本高昂的時候,就應該考慮換一種方式了。

5. 把責任落實到人。通常,我們認為那些與數據的產生、維護相關的人員是負責任的,但是,很有可能,他們有很多其他的工作要做,因此作為數據質量的負責人光有善良的想法是難以提高數據的質量,很有可能一輩子也達不到目標。對於那些負責數據的產生、數據的合理化以及對數據進行清理和維護的人,應該給他們的活動制訂明確的指標,這樣他們才能真正理解人們到底希望他們達到什麼目標。更重要的,他們還需要針對這些指標細化對他們自己的要求,當然,他們會因為達到或者超過這些指標而得到獎勵。其中,一個執行力強的負責人的價值體現出來,他會針對具體情況適時調整數據質量的目標。

最後,再次強調考慮與數據管理和數據質量的改進項目有關的人的因素,他們的行為是非常重要的。從某種程度上說,要比具體選擇什麼軟體要重要得多。上述5點有助於幫助組織規范數據質量管理中與人有關的流程。

提高數據質量的三個步驟

由於大多數系統和應用程序會持續不斷接收到新數據,數據量也在不斷增加,因此確保數據質量並不是一次就能完成的。所有企業都應該使用一種反復進行的階段性過程來管理數據質量,此過程包括數據質量評估、規劃以及策略的選擇和實施。

第一步對數據質量進行評估。評估當前的數據質量狀態是第一步。對數據質量進行評估能幫助企業准確地了解數據的內容、質量和結構。主管人員參與數據質量評估以及分析在數據檢查過程中發現的問題對於數據質量評估來說都很重要。在最有效的數據質量評估中,所有問題都將按照對業務影響從大到小的順序列出,這將幫助IT機構節省項目成本。

第二步,制訂數據質量計劃。徹底了解企業數據的內容和質量後,接下來的步驟是制訂一個計劃,來修改當前的錯誤並避免未來錯誤的發生。有效的計劃不但可以提高企業當前所有應用程序中數據的質量,還將制定一些方式以確保新應用程序從一開始就遵循數據質量規則。

第三步,選擇和實施數據質量策略。選擇改善企業數據質量的策略,要求決策者權衡每個數據質量計劃的成本以及該策略產生的影響。目前的策略類型有兩種: 在企業輸入數據時提高數據質量的方法稱為“上游”方法,而從運營系統提取數據的應用程序(如數據倉庫)中改善數據質量的方法是“下游”方法。

上游策略研究當前應用程序的邏輯、數據和流程,解決檢查過程中發現的異常情況。此策略可能涉及到更改應用程序邏輯、添加更好的表驗證、改善與數據輸入相關的流程,它致力於企業數據的高准確性。另外,此策略還要求使用應用程序本身附帶的數據質量功能。

下游策略解決目標應用程序或數據倉庫(而非數據源)中的數據質量問題。由於數據可以根據需要隨時進行修改,所以企業能夠在流程(尤其是數據轉換、名稱和地址清洗以及查找驗證)中改善數據質量。下游策略僅為目標應用程序或數據倉庫改善數據質量,但與上游策略相比,它的實施過程更簡單,成本更低。 ;

B. 如何提高工作中數據的准確性

提高人工數據標注的准確性可指灶以從以下幾個層面入手:

一、加強標注員培訓,提高標注能力。

人工智慧本質上是先有「人工」,後有「智能」,數據標注行業尤其如此。目前的數據標注行業仍屬於勞動密集型產業,幾乎所有的數據都依賴於人去標注。因此標注員的素質高低將直接影響標注數據質量的好壞。

通過自建標注團隊,並設立合理的培訓機制,可以有效提高標注員的標注能力,進而提高標注結果的准確率。

二、提高管理和執行系統平台化融合能力

隨著AI基礎數據需求多樣化,以及復雜程度的提升,以往項目經理「人管人」的管理方式和使用單一工橡逗局具應對單一需求的執行方式在質量和效率上都顯得捉襟見肘。因此,擁有一套自主研發管理和執行一體化平台,能在提升人機協作效率,擴大產能,靈活可變地增加標注能力之外,准確地把控每一環節的數據安全和質量問題。

三、梁讓建立全面的質檢與審核機制。

質檢與審核體系的建立可以有效提高整體標注的准確率。同時,通過引入AI輔助,可以大幅提高質檢與審核的效率與准確率。

C. 數據質量控制的數據質量控制方法

一個戰略性和系統性的方法能幫助企業正確研究企業的數據質量項目,業務部門與 IT 部門的相關人員將各自具有明確角色和責任,配備正確的技術和工具,以應對數據質量控制的挑戰。
Informatica 的六步法為幫助指導數據質量控制而設計,從初始的數據探查到持續監測以及持續進行的數據優化。業務部門與 IT 部門的數據使用者 — 業務分析師、數據管理員、IT 開發人員和管理員,能夠在六個步驟的每一步中協同使用 Informatica 數據質量解決方案;並在整個擴展型企業的所有數據領域和應用程序中嵌入數據質量控制。
步驟一:探查數據內容、結構和異常
第一步是探查數據以發現和評估數據的內容、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗餘。
步驟二:建立數據質量度量並明確目標
Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標准,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。
步驟三:設計和實施數據質量業務規則
明確企業的數據質量規則,即,可重復使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。
步驟四:將數據質量規則構建到數據集成過程中
Informatica Data Quality支持普遍深入的數據質量控制,使用戶可以從擴展型企業中的任何位置跨任何數量的應用程序、在一個基於服務的架構中作為一項服務來執行業務規則。數據質量服務由可集中管理、獨立於應用程序並可重復使用的業務規則構成,可用來執行探查、清洗、標准化、名稱與地址匹配以及監測。
步驟五:檢查異常並完善規則
在執行數據質量流程後,大多數記錄將會被清洗和標准化,並達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。Informatica Data Quality可捕獲和突顯數據質量異常和異常值,以便更進一步的探查和分析。
步驟六:對照目標,監測數據質量
數據質量控制不應為一次性的「邊設邊忘」活動。相對目標和在整個業務應用中持續監測和管理數據質量對於保持和改進高水平的數據質量性能而言是至關重要的。Informatica Data Quality包括一個記分卡工具,而儀錶板和報告選項則具備更為廣泛的功能,可進行動態報告以及以更具可視化的方式呈現。 上面介紹的Informatica六步法,該方法運用Informatica數據質量解決方案,提供公司所需要的各種數據質量管理能力,並確保其所有數據均是完整的、一致的、准確的、通用的。該解決方案包括幾個針對特定用途優化的組件:
Informatica Data Explorer運用基於角色的工具可促進業務部門與IT部門之間的協作,該數據探查軟體發現和分析任何來源中任何類型數據的內容、結構和缺陷。
Informatica Data Quality軟體執行清洗、解析、標准化和匹配流程並使得可視記分卡和儀表盤上的持續監測得以進行。與Informatica data Explorer類似,它特有基於角色的工具,業務部門和IT部門可以藉此得以協同工作。
Informatica Identity Resolution軟體能使各機構從60多個國家/地區以及各企業和第三方應用程序中搜尋和匹配一致數據。 Informatica數據質量解決方案為業務部門與IT部門間的協作提供基礎。其基於角色的工具特色設計使得業務分析師、數據管理員、IT開發人員和管理員能夠充分利用他們獨特的技能體系,並在流程中與所有相關人員溝通。
Informatica Analyst:適用於業務分析師和數據管理員。通過用語義術語表述數據,該款基於瀏覽器的工具使分析師和數據管理員能夠探查數據、創建和分析質量記分卡、管理異常記錄、開發和使用規則,以及與IT部門展開協作。
Informatica Developer: 適用於IT開發人員。這個基於Eclipse的開發環境允許開發人員發現、訪問、分析、探查和清晰處於任何位置的數據。開發人員可以為邏輯數據對象建模,將數據質量規則與復雜轉換邏輯合並,並在邏輯制定後,進行中游探查以驗證和調試邏輯。
Informatica Administrator: 適用於IT管理員。該工具為IT管理員帶來集中配置和管理的能力。管理員可以監測和管理安全性、用戶訪問、數據服務、網格和高可用性配置。

D. 數據質量控制通常做法

數據質量控制通常做法如下:

步驟一:探查數據內容、結構和異常

第一步是探查數據以發現和評估數據的內容、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗餘。

步驟二:建立數據質量度量並明確目標

Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標准,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。

步驟三:設計和實施數據質量業務規則

明確企業的數據質量規則,即,可重復使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。

步驟四:將數據質量規則構建到數據集成過程中

Informatica Data Quality支持普遍深入的數據質量控制,使用戶可以從擴展型企業中的任何位置跨任何數量的應用程序、在一個基於服務的架構中作為一項服務來執行業務規則。

數據質量服務由可集中管理、獨立於應用程序並可重復使用的業務規則構成,可用來執行探查、清洗、標准化、名稱與地址匹配以及監測。

步驟五:檢查異常並完善規則

在執行數據質量流程後,大多數記錄將會被清洗和標准化,並達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。Informatica Data Quality可捕獲和突顯數據質量異常和異常值,以便更進一步的探查和分析。

步驟六:對照目標,監測數據質量

數據質量控制不應為一次性的「邊設邊忘」活動。相對目標和在整個業務應用中持續監測和管理數據質量對於保持和改進高水平的數據質量性能而言是至關重要的。

Informatica Data Quality包括一個記分卡工具,而儀錶板和報告選項則具備更為廣泛的功能,可進行動態報告以及以更具可視化的方式呈現。

數據質量控制流程

第一階段:啟動

在這個階段我們需要根據所在機構的現行組織架構和工作規范基礎上,建立一套質量管控流程和規范。如建立質量管控委員會、制定質量管控管控辦法等。

質量管控委員會不必是全職,可由現有組織中如信息中心相關人員兼任。數據質量管控辦法,則應明確質量管控的角色、職責,建立可執行的工作流程、可量化的工作評估方法,同時也應具備績效考核、沖突解決與管控方式等。

有了流程和規范後,相應的責任人就應明確本輪質量管控的目標。如:數據質量提升范圍,或者是滿足一些業務的預期。目標制定完成後我們就可以進入下一個執行階段了。

第二階段:執行

進入執行階段,我們就要開始具體的質量管控工作,整個工作應該圍繞啟動階段制定的目標進行。這時我們應該適當引入一些質量管控工具來幫助我們更高效地完成我們的工作。

第三階段:檢查

檢查階段,主要是對執行階段的成果進行檢查並分析原因。

第四階段:處理(本環節一般包括以下2個方面):

1、監控數據質量,控制管理程序和績效

根據既定的操作程序,對質量管控過程中各個環節參與者進行績效評估。還可以根據不同時期的重點的制定不同的評分標准,有針對性地進行評價和管控,如整改初期數據缺失嚴重,則可對完整性規則權重調大,以期更快看到成效或者達到更好的效果。

2、建立質量控制意識與文化

在這里溝通與推廣是重點,要讓所有參與者了解數據質量問題和其實質影響,宣貫系統化的數據質量管控方法,同時挖掘對各個環節參與者的價值,尤其是業務方,傳達一種「數據質量問題不能只靠技術手段解決」的意識。最終形成一種數據質量的管理的文化。

閱讀全文

與標注數據如何管理質量相關的資料

熱點內容
linuxcentos7top詳解 瀏覽:245
win10打開sep文件出錯 瀏覽:8
用編程怎麼做幸運大轉盤 瀏覽:274
編程溫州哪裡有學 瀏覽:305
做貿易app哪個好 瀏覽:38
電腦區域網傳輸文件 瀏覽:746
linuxshell覆蓋文件 瀏覽:725
如何全選文件夾里的全部內容 瀏覽:784
sai文件修復 瀏覽:968
編程語句折疊點哪裡 瀏覽:826
win7遠程linux系統 瀏覽:372
蘋果手機null是什麼文件 瀏覽:333
web20application 瀏覽:613
知道蘋果手機id及密碼 瀏覽:589
win10重置高級選項 瀏覽:531
昂克塞拉導航怎麼升級 瀏覽:972
長虹空調如何配對萬能遙控器app 瀏覽:835
怎樣知道手機用過什麼app 瀏覽:321
logfile文件夾在哪裡 瀏覽:586
哪些數據線適合泰國 瀏覽:113

友情鏈接