Ⅰ 數據質量的主要特徵
1. 協作性。 業務部門和IT部門為數據質量共同擔責,業務分析師、數據管理員、IT開發人員和管理員各自將具有明確分工和適於其獨特技能和視角的技術。
2. 前瞻性。業務部門和IT部門認識到所有機構都會不同程度地受到劣質數據的影響,有必要再劣質數據嚴重影響到企業業績之前,積極探查數據以發現和糾正問題。
3. 可重復使用。有關數據探查與清晰的業務規則可被重復運用於任意數量的應用程序,而不論數據時內部預置、在合作夥伴處還是在雲環境中。
4. 普遍深入性。數據質量方案將擴展至所有相關人員、數據領域、項目和應用程序,而不論數據是內部預置、在合作夥伴處還是在雲環境中。
Ⅱ 什麼是地理信息系統的數據質量具體包括哪些內容
-關於數據質量
質量:是一個用來表徵人造物品的優越性或者證明其所具有技術含量的多少或
者表示其藝術性高低的常用術語。
近年來由於一下原因,關注數據質量:
1, 增加私營部門的數據生產 。
2,進一步利用地理信息作為決策支持工具。
3,日益依賴二手數據來源。
—空間數據質量的概念:
1,誤差:反映了數據與真值或者大家公認的真值之間的關系。
2,數據的准確度:被定義為結果計算值或估計值或公認值之間的接近程度。
3,數據的精密度(儀器本身):是指在數量上能夠辨別的程度,指數據的有效位
數,表示測量值本身的離散程度。解析度影響到一個資料庫對某個具體應用的適用
程度。
4,不確定性:是關於空間過程和特徵,不能被准確確定的程度。
Ⅲ 如何提高數據質量
如何提高數據質量
大數據時代帶來了海量、多樣、非結構化的數據,我們得以進行更加廣泛且深入的分析,但這必須建立在高質量的數據上才有意義。本期以企業級的視角,介紹數據質量的評價、提升與監控。
大數據的時代,數據資產及其價值利用能力逐漸成為構成企業核心競爭力的關鍵要素;然而,大數據應用必須建立在質量可靠的數據之上才有意義,建立在低質量甚至錯誤數據之上的應用有可能與其初心南轅北轍背道而馳。因此,數據質量正是企業應用數據的瓶頸,高質量的數據可以決定數據應用的上限,而低質量的數據則必然拉低數據應用的下限。
數據質量一般指數據能夠真實、完整反映經營管理實際情況的程度,通常可在以下幾個方面衡量和評價:
准確性:數據在系統中的值與真實值相比的符合情況,數據應符合業務規則和統計口徑。常見數據准確性問題如:
與實際情況不符:數據來源存在錯誤,難以通過規范進行判斷與約束;
與業務規范不符:在數據的採集、使用、管理、維護過程中,業務規范缺乏或執行不力,導致數據缺乏准確性。
完整性:數據的完備程度。常見數據完整性問題如:
系統已設定欄位,但在實際業務操作中並未完整採集該欄位數據,導致數據缺失或不完整;
系統未設定欄位:存在數據需求,但未在系統中設定對應的取數欄位。
一致性:系統內外部數據源之間的數據一致程度,數據是否遵循了統一的規范,數據集合是否保持了統一的格式。常見一致性問題如:
缺乏系統聯動或聯動出錯:系統間應該相同的數據卻不一致,缺乏必要的聯動和核對。
及時性:數據在採集、傳送、處理等環節快速支持應用的程度,考察數據的時間特性對應用的滿足程度。及時性關繫到系統能否在規定的時間內獲取到系統需要的特定時間產生的數據,以完成系統功能。常見及時性問題如:
缺乏時效性:未按照規定的數據更新時間要求對數據進行更新。
可用性:用來衡量數據項整合和應用的可用程度。常見可用性問題如:
缺乏應用功能,沒有相關的數據處理、加工規則或數據模型的應用功能,獲取目標數據;
缺乏整合共享,數據分散,不易有效整合和共享。
其他衡量標准再如有效性可考慮對數據格式、類型、標準的遵從程度,合理性可考慮數據符合邏輯約束的程度。此前一項對某企業數據質量問題進行的調研顯示常見數據質量問題中准確性問題佔33%,完整性問題佔28%,可用性問題佔24%,一致性問題佔8%,在一定程度上代表了國內企業面臨的數據問題。
提高數據質量的首要任務是定義一套標准化的數據規范,對具體數據項的定義、口徑、格式、取值、單位等進行規范說明,形成對該數據項的具體質量要求。依託這套規范作為衡量和提高數據質量的標尺,可在數據採集、加工和應用的各環節對關鍵數據項進行預防性或監測性的核檢。廣義的企業級數據字典可以作為數據標准化規范的載體,對企業運營過程中涉及的數據項名稱、業務定義和規則等要素進行收錄、規范和編制,對數據項描述信息進行標准化處理,統一定義對安全性和數據質量的要求,進而為業務運營提供可靠的數據服務、提高整體數據質量奠定基礎。理想情況下廣義的企業級數據字典是完備的,企業各系統全部數據項都被數據字典收錄,不存在同名不同義或同義不同名的情況。與此相對,狹義的數據字典通常是針對單一系統的技術屬性標准,為單一系統的開發和應用服務。
企業級數據字典通常分為三層:數據項、值域和域取值。數據項層面的規范主要包括名稱、業務規則定義、數據安全要求和數據質量要求等。
數據項名稱:包括數據項的中文名稱、英文名稱和英文簡稱,含義不同的數據項名稱不同,物理資料庫應沿用數據字典定義的全局唯一的英文簡稱對欄位命名
業務規則定義:包括數據的業務含義、轉換規則、加工規則等安全元數據:包含數據來源、所有者和訪問許可權等安全要求的定義
數據質量要求:在數據規范定義基礎之上,提出滿足業務需要的數據長度、格式、取值、數據處理、勾稽關系等要求,以此作為數據質量管理的落腳點
值域可細分為代碼域、編碼域、文本域、金額域、數值域、時間域等。例如「出生地」數據項對應值域為「行政區劃」代碼域,引用國家標准GB-T2260-2016《中華人民共和國行政區劃代碼》,對應的域取值為該國標定義的代碼表。再如「借記卡號」數據項對應值域為「19位卡號」編碼域,定義16位卡號和19位卡號兩種編碼方式,不需列舉對應具體的域取值。
數據質量管理是指在數據創建、加工、使用和遷移等過程中,通過開展數據質量定義、過程式控制制、監測、問題分析和整改、評估與考核等一系列管理活動,提高數據質量以滿足業務要求。數據質量管理工作遵循業務引領的原則,確定重點質量管控范圍,並動態調整階段性管控重點,持續優化。可按照「誰創建、誰負責;誰加工、誰負責;誰提供、誰負責」的原則界定數據質量管理責任,由數據流轉環節的各責任方對管轄范圍內的數據質量負責。對數據質量規則優先採取系統程序的自動化控制措施,並盡可能前移管控點,從源頭上控制數據質量。
數據質量監控點通常針對關鍵數據項設置實施,定義數據質量監控規則,生成監控報警,按嚴重性等級分級報告,由相應層級進行處理和響應。關鍵數據項根據經驗判斷,一般影響較廣如涉及多業務條線,或應用於關鍵業務環節如合約簽訂、會計核算、績效分析、產品定價、資金收付等,或應用於內部經營管理、對外信息披露和行業監管要求,例如財務報告數據和新資本協議實施中明確提出的重要指標項。
數據質量監控點的控制手段分為預防型和監測型:
預防性控制防止錯誤數據的產生,一般部署在數據採集點,用於控制手工輸入的源數據,以及批量導入的源數據校驗:
數據輸入校驗:例如貸款利率的輸入校驗;
數據閾值:例如數據非空,數據取值超出值域定義合理范圍,數據格式不符合標准等;
質量控制方式:系統自動校驗/雙人手工復核;
系統校驗方式:強制,如不符合規則無法通過。
監測型控制監測錯誤數據,發現數據質量問題進行報警。一般部署在數據加工和應用環節,驗證數據完整性、一致性和准確性等:
數據輸出校驗:例如貸款余額總分核對
數據一致性:例如交易頭寸與總帳系統記錄的交易頭寸一致
質量控制方式:系統自動校驗
系統校驗方式:非強制,錯誤及差異提示
對選定的關鍵數據項,需定義數據質量規則以及數據質量等級。數據質量等級可利用「閾值」和「容忍度」進行分級:
良好:數據項質量評分高於「閾值」
可容忍:數據項質量評分低於「閾值」,但高於「容忍度」
報警:數據項質量評分低於「容忍度」
嚴重報警:數據項的質量問題將帶來非常嚴重的影響,人工經驗判斷
關鍵數據項監控點的詳細信息應在企業級數據字典中維護更新,與其開發、實施和測試情況保持同步。
在進行數據質量分等級報告及響應糾錯時應遵守如下原則:
及時性。對導致數據質量等級進入「可容忍」、「報警」和「嚴重報警」狀態的數據質量事件能夠及時發現、報告和處理;
規范性:針對分級別的數據質量問題,匯報至利益相關方,配置相應資源;
高效性:數據質量問題,在分級別規定時間內被解決。應按照「可容忍」、「報警」和「嚴重報警」酌情規定響應時間;
有序性。在開展數據質量分等級報告工作時,應有序上報、統一領導、分級負責。
部署在UDP層面的數據質量監控程序實時或定期監測關鍵數據項的質量,對其數據質量進行評分,通過比較該監控點的「閾值」和「容忍度」,將數據質量進行分級,對於非「良好」的評價結果,數據質量監控程序將發送報警消息通知數據質量管理人員。報警消息內容包括問題定位頭文件和具體描述。數據質量管理人員根據報警信息調查問題數據項,驗證報警內容,生成預警信息通知下游用戶,同時填制糾錯工單通知相關責任人員。相關責任人員依據糾錯通知提示的具體內容,開展數據質量問題調查,提出數據質量改進需求和解決方案,由實施運維團隊在數據應用層面修正,或在數據採集和集成層面修正。若糾錯告警問題由數據質量要求過於嚴苛或控制規則錯誤引起,應修改關鍵數據項清單及其相關監控規則,並由實施運維團隊修改或取消已部署的對應監控點。
Ⅳ 數據分析過程中對數據的質量要求是什麼
在進行數據分析的時候,首先需要我們進行數據的選擇,在選擇數據的時候並不是說隨隨便便地選擇一些數據就能夠直接分析了,而是需要注意數據的質量,那麼數據分析過程中對數據的質量要求是什麼呢?一般來說,數據的質量要求就是基本數據一定要可靠,一定要及時發現並改正數據的錯誤,最後就是要求數據能夠匹配數據處理平台的處理數據機制。下面就由小編分別給大家講講這些。
數據一定要准確可靠。首先來說,不管是什麼企業,都是需要進行數據分析的,這是因為進行數據分析的目的都是為了可以給企業帶來更多的商業價值,並且能夠幫助企業來減少風險帶來的損失。所以,這就需要數據的准確性了,如果數據的不準確或者質量差,那麼那麼得出的數據分析的結果以及採取的問題解決方案都在質量上大打折扣,這樣的分析結果肯定不能夠去解決企業的問題。
其次說說進行數據分析的時候一定要及時的發現並改正數據的錯誤,大家都知道,進行數據處理的過程是一個復雜的過程,在處理數據分析的時候,我們在各個環節中產生錯誤。數據分析的環節有數據篩選、數據分析等等,因此我們需要在各個環節中對錯誤的數據進行判斷,特別是數據處理的階段,可以很好的對數據進行一個清理的過程。我們不只是在數據分析的時候進行及時和改正數據的錯誤,而是在每一個環節都需要合理性分析找出質量不高的數據,或者進行錯誤數據的判定,這是一個優秀的數據分析師需要的素質。
最後說說要求數據能夠匹配數據處理工具中數據的機制,這是因為我們在進行數據分析的時候都是使用數據分析工具進行數據分析的,這就需要我們對數據進行處理,使得數據能夠匹配數據處理工具中的數據機制,一般大數據解決方案的相關企業也會提供應用,企業在選擇數據處理平台的時候,如果條件好一些的可以選擇一些在這方面技術比較成熟的應用企業,一般國內的大型企業主要會採用國外的數據處理軟體。也有不少企業使用國產的處理軟體,在數據應用技術相對比較成熟的基礎上,選擇國內的軟體開發也是不錯的選擇,不僅可以降低IT成本,在數據安全以及使用上也會更加方便,可以達到相同效果的同時,購買國內的商業智能平台也是不錯的選擇。
以上就是小編為大家解答的「數據分析中對數據的質量要求是什麼」這個問題的詳細解釋了,希望這篇文章能夠給大家帶來幫助,大家在進行數據選擇的時候一定要注意好上面提到的內容,這樣才能夠方便大家對數據的分析,最後感謝大家的閱讀。