导航:首页 > 数据分析 > 高质量的数据一般包含哪些特征

高质量的数据一般包含哪些特征

发布时间:2025-01-19 00:02:41

A. 高质量的数据一般包括哪些指标特征

1)功能性:软件提供了用户所需要的功能。二级特性包括:适合性、准确性、互用性、安全性。对数据而言,个人觉得重要的应该属于准确性和安全性。


a.对于准确率,如果一句话概括就是,先数据要有,其次数据要全,后数据要准。对应的,就可以看到该大项下对应的小项:


数据要有->数据及时性:数据要按约定时间产出。


数据要全->数据完整性:数据不能少、不能缺。当然,也不能多。


数据要准->数据准确性:数值要准确。


这几个二级特性,可能很多同学的文章中都写过,也讨论过。这里只是从数据质量整体系统性上再将其阐述一遍。需要说明的一点是,很多文章中也写到了数据一致性这个特性。数据一致性这个概念很广,比如关系数据库中的外键一致性、CAP理论中的强弱一致性。个人认为,数据不一致终影响的还是数据的完整或者准确。如果业务上认为不一致性可以接受,那也不是问题。所以我更倾向于将数据一致性作为一种根因,而并不是质量模型的一个子项。


b.对于安全性,尤其是数据安全,命题也很大,这里不再赘述。但需要提的一点是,数据安全涉及到隐私或者差分攻击的预防,也可能是由业务同学考虑的范畴,所以在数据质量模型中不能忽视。


2)易用性:是指在指定条件下使用时,软件产品被理解、学习、使用和吸引用户的能力。对于数据来说,我认为数据的易用可以分为两方面:是否被理解,是否被需要。它更多的是和日常沟通、产品需求及规划相关。


是否被理解,意思是当前我们对数据的定义是否是行业认可的,是否存在团队与团队之间、用户与开发者之间理解的不一致。


是否被需要,意思是当前我们提供的数据,是否真的能够满足用户需要,数据的真正效果有没有达到。比如,我们给用户提供的是它自己品牌的数据,但用户可能更需要的是行业下的数据来做进一步的市场规划。


3)可靠性:在指定条件下使用时,软件产品维持规定的性能水平的能力。比如上游数据无法定时给出,依赖关系的强弱配置不正确,可能影响的就是数据无法定时产出。可靠性是一种根因,终影响的还是功能性。


4)效率:是指在规定条件下,相对于所用资源的数量,软件产品是否在规定时间内可提供适当的性能的能力。比如计算倾斜或者计算资源不足导致数据产不出来。效率也是一种根因,终影响的还是功能性。


5)可维护性:是指是在修改或者新增需求时,当前的开发架构是否足够灵活的支持,是开发阶段主要考虑的。比如在数仓开发中,当新上游到来时,如果从下到上全部采用烟囱式开发,那对新增的需求必定是不友好的。如果改为Hub或者集市模式,可能只需要开发接入数据的ETL代码,剩下的完全可以复用,就是提升可维护性的一种手段。


6)可移植性:是指软件产品从一种环境迁移到另一种环境的能力,也是开发阶段主要考虑的。服务或者网站的可移植性大家了解比较多,数据的可移植性是指什么?我个人认为可移植性强调的更多是跨技术平台的移植,而不是模块间的数据复用。在数据上可能就是数据直接从一个计算平台迁移到另一个计算平台,或者SQL代码从一个计算平台迁移到另一个计算平台。在可移植性方面,我还没有遇到导致质量问题的有说服力的案例,如果大家有相关的例子可以沟通。

阅读全文

与高质量的数据一般包含哪些特征相关的资料

热点内容
清除王者数据是什么意思 浏览:131
用代码如何创建数据库 浏览:478
国外影视教程 浏览:38
iphone自动关机开不了 浏览:107
怎么制作配音网站 浏览:375
电脑的编程从哪里进去 浏览:367
苹果电脑无法输入密码 浏览:197
淘宝推广程序怎么删除 浏览:20
程序员英文怎么说 浏览:600
微信群色聊天记录图片 浏览:679
树莓派java开发 浏览:173
苹果往安卓转移数据的代码在哪里 浏览:113
win10usable 浏览:629
网站空间怎么开启ip访问 浏览:943
找不到指定的素材文件 浏览:429
笔记本怎么拷文件夹里 浏览:729
在文件管理中找不到下载好的音频 浏览:627
linuxu盘文件挂载 浏览:105
ios网络唤醒 浏览:133
iphone5c电信4g 浏览:118

友情链接