⑴ 大數據篩查不準確
採集數據的時候可能會出現以下錯誤:
第一種錯誤叫選擇誤差,如果選擇的樣本不平均,就會出現這類錯誤。
第二種錯誤叫倖存者誤差,就是說,選擇的樣本里有過高或者過低數據,那得出的結論就會有問題。
第三種錯誤叫回憶誤差。
第四種錯誤叫健康用戶誤差,這個說法源於一個邏輯比喻,就是每天按時吃維生素片的人身體更健康,但並不代表吃維生素這個舉動就可以完全決定一個人是否健康。
總的來說,數據沒有錯,錯的是我們採集和對待數據的方式。只有正確抓取和利用數據的人,才能通過它們提供的各種線索,接觸到事物的本質和真相。
⑵ 什麼叫數據冗餘什麼叫數據失真
有時為了數據應用的方便,數據結構設計者故意將同源數據以不同的面貌出現在不同的地方,這就是數據冗餘.比如,A=(B^2+5)*0.9,A是由B計算出來的,如果資料庫中既儲存有B的實際值,也存有A的數值,這就產生了數據冗餘.
數據失真是指原態數據在壓縮或者轉儲存或者轉換過程中失去了准確還原為原生數據的現象,比如說將一個WAV格式的音頻文件壓縮成MP3文件,雖然你聽著沒有區別,但你已經無法再將MP3文件准確地還原成原來的WAV文件.如果將WAV和MP3文件用不同的音頻工具軟體多次"壓縮-還原",那麼最後你將得到失去音樂細節的純噪音.這就叫做數據失真.將BMP格式的圖象文件壓縮成JPG格式的圖象文件也會產生數據失真.視頻文件轉換的數據失真現象最嚴重.