導航:首頁 > 數據分析 > 高質量的數據一般包含哪些特徵

高質量的數據一般包含哪些特徵

發布時間:2025-01-19 00:02:41

A. 高質量的數據一般包括哪些指標特徵

1)功能性:軟體提供了用戶所需要的功能。二級特性包括:適合性、准確性、互用性、安全性。對數據而言,個人覺得重要的應該屬於准確性和安全性。


a.對於准確率,如果一句話概括就是,先數據要有,其次數據要全,後數據要准。對應的,就可以看到該大項下對應的小項:


數據要有->數據及時性:數據要按約定時間產出。


數據要全->數據完整性:數據不能少、不能缺。當然,也不能多。


數據要准->數據准確性:數值要准確。


這幾個二級特性,可能很多同學的文章中都寫過,也討論過。這里只是從數據質量整體系統性上再將其闡述一遍。需要說明的一點是,很多文章中也寫到了數據一致性這個特性。數據一致性這個概念很廣,比如關系資料庫中的外鍵一致性、CAP理論中的強弱一致性。個人認為,數據不一致終影響的還是數據的完整或者准確。如果業務上認為不一致性可以接受,那也不是問題。所以我更傾向於將數據一致性作為一種根因,而並不是質量模型的一個子項。


b.對於安全性,尤其是數據安全,命題也很大,這里不再贅述。但需要提的一點是,數據安全涉及到隱私或者差分攻擊的預防,也可能是由業務同學考慮的范疇,所以在數據質量模型中不能忽視。


2)易用性:是指在指定條件下使用時,軟體產品被理解、學習、使用和吸引用戶的能力。對於數據來說,我認為數據的易用可以分為兩方面:是否被理解,是否被需要。它更多的是和日常溝通、產品需求及規劃相關。


是否被理解,意思是當前我們對數據的定義是否是行業認可的,是否存在團隊與團隊之間、用戶與開發者之間理解的不一致。


是否被需要,意思是當前我們提供的數據,是否真的能夠滿足用戶需要,數據的真正效果有沒有達到。比如,我們給用戶提供的是它自己品牌的數據,但用戶可能更需要的是行業下的數據來做進一步的市場規劃。


3)可靠性:在指定條件下使用時,軟體產品維持規定的性能水平的能力。比如上游數據無法定時給出,依賴關系的強弱配置不正確,可能影響的就是數據無法定時產出。可靠性是一種根因,終影響的還是功能性。


4)效率:是指在規定條件下,相對於所用資源的數量,軟體產品是否在規定時間內可提供適當的性能的能力。比如計算傾斜或者計算資源不足導致數據產不出來。效率也是一種根因,終影響的還是功能性。


5)可維護性:是指是在修改或者新增需求時,當前的開發架構是否足夠靈活的支持,是開發階段主要考慮的。比如在數倉開發中,當新上游到來時,如果從下到上全部採用煙囪式開發,那對新增的需求必定是不友好的。如果改為Hub或者集市模式,可能只需要開發接入數據的ETL代碼,剩下的完全可以復用,就是提升可維護性的一種手段。


6)可移植性:是指軟體產品從一種環境遷移到另一種環境的能力,也是開發階段主要考慮的。服務或者網站的可移植性大家了解比較多,數據的可移植性是指什麼?我個人認為可移植性強調的更多是跨技術平台的移植,而不是模塊間的數據復用。在數據上可能就是數據直接從一個計算平台遷移到另一個計算平台,或者SQL代碼從一個計算平台遷移到另一個計算平台。在可移植性方面,我還沒有遇到導致質量問題的有說服力的案例,如果大家有相關的例子可以溝通。

閱讀全文

與高質量的數據一般包含哪些特徵相關的資料

熱點內容
maya粒子表達式教程 瀏覽:84
抖音小視頻如何掛app 瀏覽:283
cad怎麼設置替補文件 瀏覽:790
win10啟動文件是空的 瀏覽:397
jk網站有哪些 瀏覽:134
學編程和3d哪個更好 瀏覽:932
win10移動硬碟文件無法打開 瀏覽:385
文件名是亂碼還刪不掉 瀏覽:643
蘋果鍵盤怎麼打開任務管理器 瀏覽:437
手機桌面文件名字大全 瀏覽:334
tplink默認無線密碼是多少 瀏覽:33
ipaddgm文件 瀏覽:99
lua語言編程用哪個平台 瀏覽:272
政采雲如何導出pdf投標文件 瀏覽:529
php獲取postjson數據 瀏覽:551
javatimetask 瀏覽:16
編程的話要什麼證件 瀏覽:94
錢脈通微信多開 瀏覽:878
中學生學編程哪個培訓機構好 瀏覽:852
榮耀路由TV設置文件共享錯誤 瀏覽:525

友情鏈接