⑴ 大数据筛查不准确
采集数据的时候可能会出现以下错误:
第一种错误叫选择误差,如果选择的样本不平均,就会出现这类错误。
第二种错误叫幸存者误差,就是说,选择的样本里有过高或者过低数据,那得出的结论就会有问题。
第三种错误叫回忆误差。
第四种错误叫健康用户误差,这个说法源于一个逻辑比喻,就是每天按时吃维生素片的人身体更健康,但并不代表吃维生素这个举动就可以完全决定一个人是否健康。
总的来说,数据没有错,错的是我们采集和对待数据的方式。只有正确抓取和利用数据的人,才能通过它们提供的各种线索,接触到事物的本质和真相。
⑵ 什么叫数据冗余什么叫数据失真
有时为了数据应用的方便,数据结构设计者故意将同源数据以不同的面貌出现在不同的地方,这就是数据冗余.比如,A=(B^2+5)*0.9,A是由B计算出来的,如果数据库中既储存有B的实际值,也存有A的数值,这就产生了数据冗余.
数据失真是指原态数据在压缩或者转储存或者转换过程中失去了准确还原为原生数据的现象,比如说将一个WAV格式的音频文件压缩成MP3文件,虽然你听着没有区别,但你已经无法再将MP3文件准确地还原成原来的WAV文件.如果将WAV和MP3文件用不同的音频工具软件多次"压缩-还原",那么最后你将得到失去音乐细节的纯噪音.这就叫做数据失真.将BMP格式的图象文件压缩成JPG格式的图象文件也会产生数据失真.视频文件转换的数据失真现象最严重.