導航:首頁 > 數據分析 > 什麼樣的臟數據不需要清理掉

什麼樣的臟數據不需要清理掉

發布時間：2023-03-29 18:40:50

1. 臟數據潛在的隱患以及數據整合

很少有什麼IT項目比數據整合更令人頭疼的了如果我們換個方式思考就會發現有一件事是比數據整合更可怕的那就是數據整合出現了問題

有時候這是由於用戶出錯或者惡意用戶的蓄意破壞導致不良數據堆積引起的問題有時候原始數據是完好無損的但是從一個系統/資料庫轉移到另一個系統/資料庫的過程中丟失被刪截或者被修改了也會造成麻煩數據會過時也會在你企業內部的人事斗爭過程中不幸被流彈擊中要知道每個人都是死抱著自己的一小片數據存儲地盤不願與其他人分享

有很多的方式會導致數據項目的流產本文列舉了其中五種最常見的情況告訴你究竟是什麼地方出錯了將會導致什麼樣的後果以及可以採取什麼措施避免同樣的情況發生在自己身上文中所涉及的公司名字一概隱去希望不要讓你自己的經歷像本文所敘述的對象那樣淪為他人口中的經驗教訓

親愛的 *** 郵件事件

小心你的數據來源它有可能會反過來擺你一道這個事例源於一個大型金融服務機構的客戶呼叫中心就像幾乎所有的客服櫃台一樣這里的客戶服務代表們要做的就是接聽電話並把客戶信息輸入到一個共享資料庫里

這個特殊的資料庫里有一列是用來記錄稱謂的並且是可編輯的但是資料庫管理員並沒有對這一列的輸入規則進行約束例如只能輸入某某先生某某女士之類的稱謂反而可以接受客服代表輸入的任何長達或字元的內容在傾聽一些客戶憤怒的投訴時部分客服代表就會給每條記錄添加一些他們自己想出來的不完全友善的注釋例如這個客戶真是個 *** 這類的注釋

這種情況持續了很多年因為機構里的其他系統都不會從這個稱謂列中提取數據所以沒有人注意到這一情況其後某天市場部決定發起一次直接郵寄活動來推廣一項新服務他們想出了一個絕妙的點子與其花錢購買一份名單不如利用客服櫃台的資料庫

於是以諸如親愛的 *** 客戶Linlin 這樣的措詞抬頭的郵件開始源源不斷的發到客戶郵箱里

當然沒有任何客戶會簽約使用這項新服務該機構直到開始檢查他們所發出的郵件時才弄清楚前因後果

我們擁有的數據不是屬於我們自己的如今世界的聯系日趨緊密很可能會有人找到了你的數據並把它利用在一個你完全想像不到的地方如果你從別的地方獲取數據那麼在你利用它們執行新任務時必須要確保你的數據質量管理水平過關了

判斷水平過不過關取決於你要如何利用這些數據正確性是判斷數據質量的基本要素之一對於直郵產業數據的准確率達到 %至 %就可能就夠了而對於制葯業你就必須達到 %甚至更高不過沒有什麼公司想要或者需要完美的數據更不用說為了得到完美數據而付出金錢因為要數據保持完美的代價太昂貴了問題是要怎樣利用數據以及數據的准確率達到什麼程度才足夠好

死去的人有沒有選舉權

相信大家對數據清洗（Data cleansing）這個術語並不陌生它是數據整合過程中必須進行的一個復雜過程通過檢測和清除掉垃圾數據（包括不正確過時冗餘以及不完整的數據）以保證數據的正確性可靠性完整性和一致性從字面上我們就可以看出數據清洗是一個生死攸關的問題下面講述的也是生死攸關的事例年美國國會選舉期間某 *** 工作志願者在通過電話讓已登記的選民來投票的過程中發現每十個選民中有三個是已經死裂蘆滑去的人因此沒有資格投票現代肆臘社會里死者數據不全所引發的問題很常見確實也給生者帶來了很大的困擾

對於諸如保險公司投資公司基金公司通訊公司等擁有大量客戶的服務類企業而言客戶數據是其重要的財富來源然而客戶數據質量問題卻一直是困擾企業開發新服務項目的絆腳石在一項關於客戶數據質量的調查研究中發現平均而言 %的客戶數據記錄存在各種問題例如各種證件號碼輸入錯誤聯系方式過期等等其中有五分之一的數據問題是由於客戶的死亡造成的其中一部分客戶死亡時間超過十年卻仍保留著股東的身份

這並不是客戶的疏忽只是自然發生的問題私營企業上市被並購或者拆分而他們的股東數嘩螞據卻一直被保留著甚至長達數十年之久不過這些垃圾數據所引起的問題可能比起在不必要的郵寄費用上浪費一點錢更為嚴重最令人擔心的問題莫過於欺詐和盜竊ID 如果這些情況發生在頗具影響力的機構組織里必會導致更為嚴重的現實問題例如已故股東的紅利被陌生人兌現繼承人的繼承權被剝奪公司機密泄漏等等

那麼要怎麼解決這個問題呢？利用商業評測軟體可以識別不同系統的異常數據並做好標記方便檢查即便如此所有的企業都應當加強重視做好內部監控嚴格執行例行的基本檢查事實上每一個企業都或多或少存在垃圾數據方面的問題從風險管理的觀點來看最好的解決方案就是持之以恆地檢查如果你從上文的內容能認識到這個自然發生的現象可能會對你產生什麼影響的話已經有了一個好的開始

數據重復的代價

用戶出錯會引發麻煩事用戶自作聰明造成的問題可能更嚴重某保險公司從上世紀年代開始就將大部分客戶資料保存在一個主應用軟體中並規定數據錄入操作員錄入新數據前先要搜索資料庫中是否已經有該客戶的記錄但是搜索功能執行起來非常慢而且不夠准確所以大多數操作員不再執行這一步驟而從頭開始輸入新記錄這樣做確實簡單輕松多了然而結果是很多客戶公司的記錄在資料庫里重復達幾百次使系統運行地更慢數據搜索結果更加不準確形成了惡性循環

不幸的是這個應用軟體已經根深蒂固的嵌入到該公司的其他系統了管理部門不願意花錢把它替換掉最後該公司的IT部門發現如果公司再也無法查找用戶資料了將會造成的每天萬美元的損失直到這時候公司才如夢初醒使用識別系統來清洗數據最終清除了近四萬條重復記錄

重復數據的問題一直都讓IT管理員頭痛不已資料庫越龐大這個問題越嚴重但是很少有人真正認識到問題的嚴重性如果有人告訴你他的客戶資料庫里有 %的重復數據很可能低估了不過我們也沒有什麼靈丹妙葯徹底解決這個問題即使我們能夠利用數據匹配技術來沙裡淘金跨越多個資料庫找出唯一有用的信息最難的一關可能是讓企業里的不同利益團體就什麼數據可以大家共享以及如何構建匹配達成一致同一個機構里的兩個不同的部門可能對匹配和重復項有完全不同的定義類似的數據整合工作會因為相關人員不能對誰才是數據的所有者以及什麼數據可以拿來與別人交換的意見不和而土崩瓦解

小心老化的數據

相信很多人對魔域大冒險（Zork）這款最經典的文字冒險游戲還記憶猶新通過問答形式由游戲設置提供情景描述而玩家輸入選擇關鍵詞判斷來推動游戲發展是現代RPG游戲的鼻祖現在還有不少人仍在開發這類古老的游戲這也沒什麼問題是他們資料庫里保存的用戶資料也同樣的古老

某老款游戲開發商利用MailChimp的網路營銷服務來聯系以前的一萬名客戶就是為了提醒他們游戲的第二版終於完成了他們所用的大部分電子郵件地址至少是十年前的其中有一部分是Hotmail帳戶很久之前就被遺棄不用了以致微軟已經把這些郵件地址當成垃圾郵件陷阱了於是一天之內所有的MailChimp郵件都被Hotmail的垃圾郵件過濾器列入了黑名單

幸好游戲開發商以前保留了原始記錄包括每位客戶下載其游戲時的IP地址這成了MailChimp的救命稻草 MailChimp給Hotmail的客服發了緊急申明證明這些郵箱帳戶是合法客戶只是年代比較久遠第二天 hotmail就把MailChimp從黑名單中解救出來了

所有的數據都會快速老化就像放射性物質發生衰變一樣而聯絡數據比其他數據老化得更快資料庫管理人員必須定期更新每一個系統的數據

美國工商資料庫是個巨額產業而聯絡資料是所有資料中最受銷售人員青睞的但也是最難維護的年成立於美國的是一個在線商務聯絡資料資料庫面向銷售專業人員採用Wiki式數據清洗方式來維護該網站的三十多萬名用戶通過上傳新名片資料或糾正錯誤的名片資料來換取點數上傳的每條記錄必須完整如果上傳不正確或是資料太老舊就會扣除相應的點數而用戶能得到的利益就是用獲得的點數購買自己所需要的名片資料

Jigsaw的首席執行官Jim Fowler稱一家科技公司想要把他們公司的資料庫和Jigsaw的資料庫進行比較以便清除不良數據該科技公司擁有四萬條記錄其中只有 %是當前可用的而且全部數據都不完整 Jigsaw發現他們大部分合作客戶都擁有很多毫無價值的數據根本就沒辦法去匹配糾正公司花費了數百萬美元在客戶關系管理軟體上可見這些數據有多糟糕有時候公司的真正價值不在擁有的數據本身而在於有沒有能力與時俱進地跟上數據變化的速度 Jigsaw的能力正是在於完善數據並進行自我清洗如果沒有自我修正的機制 Jigsaw也只不過是一家毫無價值的數據公司而已

小錯誤與大麻煩

好數據和不良數據之間的差別很可能就體現在一個小點上某專案優化解決方案供應商的高級顧問告訴我們他曾為一個大型數據整合項目做顧問這個項目看起來一切都運行正常但六個月後某人打開一個數據表只看到了一排排符號什麼數據都沒有

這其實只是一個字元代碼錯誤本來在一些域里應該用省略號（三個點）的但有人只輸入了兩個點導致了整個數據線的崩潰該公司不得不費盡力氣從備份中重新創建整個資料庫查找省略號然後用正確數據替換

很多時候問題不僅僅是簡單的數據錄入錯誤或者是臟數據進臟數據出的問題而已很多企業在進行不同操作系統之間的數據移植或從老的SQL版本中升級數據等操作時並沒有做好充分計劃他們總是希望利用手頭上任何可利用資源火速進行而把數據清洗任務冀望於以後完成更甚者他們的測試環境和操作環境可能並不一致或者他們只用少量數據子集來測試沒有測試過的數據很可能會在後面的操作引發大麻煩

企業經歷著深刻的技術革命卻沒有在數據整合和維護的管理上花費足夠的時間和精力最終只會成為不良數據的犧牲品在數據遷移的過程中有無數的機會讓它們成為不良數據

不要指望IT部門來驗證你的數據讓與這些數據密切相關的有能力的用戶來幫助你做好數據整合計劃和測試在你決定進行整合之前先查看一下所有數據確定用於從中提取數據的應用軟體如果可以最好測試所有的數據而不是其中某個子集要知道正如上面的例子所示就算是一個小的不能再小的錯誤都會把你和你的數據拉進痛苦的深淵

我們最後再用一個實例來說明小錯誤和大麻煩之間的關系

某商業風險管理解決方案供應商的某位客戶創建了一個SQL伺服器資料庫用來確定是否有錯誤的CAD文件在其網路內部流竄原本的設想是如果錯誤的數據包超過某設定閾值公司管理員就會知道並進行數據挖掘和清洗工作問題是他們不小心顛倒了資料庫的規則設置（把兩個閾值放反了）導致錯誤數據包越多提交公司的報告里顯示的網路運行情況就越好最後該公司網路被某種蠕蟲病毒入侵破壞了他們的工程CAD檔案他們不得不重頭開始花費大量的金錢來重建大部分的文檔這一切都是因為一個非常簡單數據提取設置錯誤造成的

lishixin/Article/program/Oracle/201311/17541

2. 數據清理中需要考慮到的因素包括

1、預處理：在實際業務處理中，數據通常磨斗是臟數據。所謂的臟，指數據可能存在以下幾種問題（主要問題）
1、預處理：在實際業務處理中，數據通常是臟數據。所謂的臟，指數據可能存在以下幾種問題（主要問題）:
1.數據缺失（Incomplete）是老伏屬性值為空的情況。如Occupancy=「」
2.數據雜訊（Noisy）是數據值不合常理的情況。如Salary=「瞎含磨-100」
3.數據不一致（Inconsistent）是數據前後存在矛盾的情況。
如Age=「42」vs.Birthday=「01/09/1985」
4.數據冗餘（Rendant）是數據量或者屬性數目超出數據分析需要的情況。
5.數據集不均衡（Imbalance）是各個類別的數據量相差懸殊的情況。
6.離群點/異常值（Outliers）是遠離數據集中其餘部分的數據。
7.數據重復（Duplicate）是在數據集中出現多次的數據。標准化處理如:id對應不上淘寶個人信息表1阿宏xxxx支付寶個人信息表阿宏xxxx天貓個人信息表3阿宏xxxx標准化後對照表idnametbidzfbidtmId0001阿宏123淘寶個人信息表(+Standardid)1阿宏xxxx001支付寶個人信息表2阿宏xxxx001天貓個人信息表3阿宏xxxx00
去重處理分2種類型_全部欄位：distinctgroupby、row_number_核心欄位：row_number處理結果需要保留哪條數據要看具體情況4、錯誤值處理：邏輯錯誤、主外鍵不一致、全形半形、數據移位。缺失值處理，重新收集，分數據的重要程度平均法、中位數取行業標准取最常用的值空值替換
6、格式內容的處理時間、日期、數值、全半形格式不一致內容中不應該存在的內容內容與改欄位應有的內容不一致
7、邏輯錯誤處理，年齡超過200、月份13月日期2月30，按照缺失值處理
8、修正矛盾數據確定那個欄位是正確的
9、非需求數據清洗
10.關聯性驗證

3. 標題為什麼要進行數據清洗如果不進行數據清洗會有什麼影響

為了保證數據的准確性和完整性，如果沒有數據清洗那麼結果會產生誤差。

數據清洗是指發現並糾正數據文件中可識別的錯誤的最後一道程序，包括檢查數據一致性，處理無效值和缺失值等。與問卷審核不同，錄入後的數據清理一般是由計算機而不是人工完成。

數據清洗方法

一般來說，數據清理是將資料庫精簡以除去重復記錄，並使剩餘部分轉換成標准可接收格式的過程。

數據清理標准模型是將數據輸入到數據清理處理器，通過一系列步驟「清理」數據，然後以期望的格式輸出清理過的數據。數據清理從數據的准確性、完整性、一致性、惟一性、適時性、有效性幾個方面來處理數據的丟失值、越界值、不一致代碼、重復數據等問題。

數據清理一般針對具體應用，因而難以歸納統一的方法和步驟，但是根據數據不同可以給出相應的數據清理方法。

4. 數據清洗需清理哪些數據

數據清洗需要清理的數據，是輸入數據後需要對數據進行預處理，只有處理得當的數據才能進到數據挖掘的步驟。而處理數據包括對數據數量和質量的處理。

包括對缺失的數據有添補或刪除相關行列方法，具體步驟自己判斷，如果數據量本來就很少還堅持刪除，那就是自己的問題了。

添補:常用拉格朗日插值或牛頓插值法，也蠻好理解，屬於數理基礎知識。(pandas庫里自帶拉格朗日插值函數，而且這個好處是還可以在插值前對數據進行異常值檢測，如果異常那麼該數據就也被視為需要進行插值的對象)。

刪除:這個也好理解，就是對結果分析沒有直接影響的數據刪除。

異常值
這個是否剔除需要視情況而定
像問題1中視為缺失值重新插值
刪除含有異常值的記錄(可能會造成樣本量不足，改變原有分布)
平均值修正(用前後兩個觀測值平均值)
綜上，還是方案一靠譜。
人生苦短，學好python
3 數據量太多，有三種方法:集成，規約，變換
(1)數據是分散的時，這個就是指要從多個分散的數據倉庫中抽取數據，此時可能會造成冗餘的情況。此時要做的是【數據集成】。
數據集成有兩方面內容:
①冗餘屬性識別②矛盾實體識別
屬性:
對於冗餘屬性個人理解是具有相關性的屬性分別從不同的倉庫中被調出整合到新表中，而新表中由於屬性太多造成冗餘，這時可以靠相關性分析來分析屬性a和屬性b的相關系數，來度量一個屬性在多大程度上蘊含另一個屬性。等等。

數據清洗時預處理階段主要做兩件事情：

一是將數據導入處理工具。通常來說，建議使用資料庫，單機跑數搭建MySQL環境即可。如果數據量大（千萬級以上），可以使用文本文件存儲+Python操作的方式。

二是看數據。這里包含兩個部分：一是看元數據，包括欄位解釋、數據來源、代碼表等等一切描述數據的信息；二是抽取一部分數據，使用人工查看方式，對數據本身有一個直觀的了解，並且初步發現一些問題，為之後的處理做准備。

數據清洗是整個數據分析過程中不可缺少的一個環節，其結果質量直接關繫到模型效果和最終結論。在實際操作中，數據清洗通常會占據分析過程的50%—80%的時間。

5. 數據清洗是什麼數據清洗有哪些方法

隨著大數據時代的發展，越來越多的人開始投身於大數據分析行業。當我們進行大數據分析時，我們經常聽到熟悉的行業詞，如數據分析、數據挖掘、數據可視化等。然而，雖然一個行業詞的知名度不如前幾個詞，但它的重要性相當於前幾個詞，即數據清洗。

顧名思義，數據清洗是清洗臟數據，是指在數據文件中發現和糾正可識別錯誤的最後一個程序，包括檢查數據一致性、處理無效值和缺失值。哪些數據被稱為臟數據？例如，需要從數據倉庫中提取一些數據，但由於數據倉庫通常是針對某一主題的數據集合，這些數據是從多個業務系統中提取的，因此不可避免地包含不完整的數據。錯誤的數據非常重復，這些數據被稱為臟數據。我們需要藉助工具，按照一定的規則清理這些臟數據，以確保後續分析結果的准確性。這個過程是數據清洗。

常用的數據清洗方法主要有以下四種：丟棄、處理和真值轉換。讓我們來看看這四種常見的數據清洗方法。

1、丟棄部分數據

丟棄，即直接刪除有缺失值的行記錄或列欄位，以減少趨勢數據記錄對整體數據的影響，從而提高數據的准確性。但這種方法並不適用於任何場景，因為丟失意味著數據特徵會減少，以下兩個場景不應該使用丟棄的方法:數據集中存在大量數據記錄不完整和數據記錄缺失值明顯的數據分布規則或特徵。

2、補全缺失的數據

與丟棄相比，補充是一種更常用的缺失值處理方法，通過某種方法補充缺失的數據，形成完整的數據記錄對後續的數據處理。分析和建模非常重要。

3、不處理數據

不處理是指在數據預處理階段，不處理缺失值的數據記錄。這主要取決於後期的數據分析和建模應用。許多模型對缺失值有容忍度或靈活的處理方法，因此在預處理階段不能進行處理。

4、真值轉換法

承認缺失值的存在，並將數據缺失作為數據分布規律的一部分，將變數的實際值和缺失作為輸入維度參與後續數據處理和模型計算。然而，變數的實際值可以作為變數值參與模型計算，而缺失值通常不能參與計算，因此需要轉換缺失值的真實值。

俗話說，工欲善其事，必先利其器。一個好用的工具對數據清洗工作很有幫助，思邁特軟體Smartbi的數據清洗功能就十分優秀。

思邁特軟體Smartbi的輕量級ETL功能，可視化流程配置，簡單易用，業務人員就可以參與。採用分布式計算架構，單節點支持多線程，可處理大量數據，提高數據處理性能。強大的數據處理功能不僅支持異構數據，還支持內置排序、去重、映射、行列合並、行列轉換聚合以及去空值等數據預處理功能。

現在你知道什麼是數據清洗嗎？數據清洗是數據分析中一個非常重要的環節，不容忽視。Smartbi的這些功能配置，無疑是數據清洗的好幫手。

6. 什麼是臟數據

臟數據（Dirty Read）是指源系統中的數據不在給定的范圍內或對於實際業務毫無意義，或是數據格侍宴式非法，以及在源系統中存在不規范的編碼和含糊的業務邏輯。

通俗的講，當一個事務正在訪問數據，並且對數據進行了修改，而這種修改還沒有提交到資料庫中，這時，另外一個事務也訪問這個數據，然後使用了這個數據。

因為這個數據是還沒有提交的數據，那麼另外一個事務讀到的這個數據是臟數據，依據臟數據所做的操作可能是不正確的。

(6)什麼樣的臟數據不需要清理掉擴展閱讀:

臟數據產生的影響：

1、丟失的修改：一個事物的更新覆蓋了另一個事物的更新。例如：事物A和B讀入同一數據並修渣廳改，B提交的結果破壞了A提交的結果，導致A的修改被丟失。

2、不可重復讀：一個事物兩次讀取同一個數據，兩次讀取的數據不一致。不可重復讀是指事物A讀取數據後，事物B執行更新操作，事務A 無法再現前一次讀取結果。

（1）事物A讀取某一數據後，事物B對其作了修改，當事物A再次讀取數據時，得到與前一次不同的值。

（2）事物A按一定的條件從資料庫中讀取了某些數據後，事物B刪除了其中部分記錄，當A再次以相同條件讀取時，發現某些記錄消失了。

3、臟讀：一個事物讀取了另一個事物未提交的數據。讀「臟」數據是指事物A修改某一數據，並將其寫回磁碟，事物B讀取同一數據後,A由於某種原因被撤銷，這時A已修改過的數據恢復原值，B讀到的數據就與資料庫中的數據不一致，則B讀到的數據為「臟」數據，即不正確的數據。

4、幻讀：一個事務按相同的查詢條件重新讀取以前檢索過的數據，卻發現其他事務插入了滿足其查詢條件的新數據，這種現象就稱為「老梁銀幻讀」。

7. 干凈數據是不需要清洗的數據

干凈數據，clean data，大數據新詞。
數據清洗的目的是解決「臟」數據問題，即不是將「臟」數據洗掉，而是將「臟」數據洗干凈。干凈的數據指的是滿足質量要求的數據。

8. 數據清洗

從兩個角度上看，數據清洗一是為了解決數據質量問題，二是讓數據更適合做挖掘。不同的目的下分不同的情況，也都有相應的解決方式和方法。在此簡略描述一下，若有錯誤，請指出，不勝感激！

解決數據質量問題

解決數據的各種問題，包括但不限於：

數據的完整性----例如人的屬性中缺少性別、籍貫、年齡等

數據的唯一性----例如不同來源的數據出現重復的情況

數據的權威性----例如同一個指標出現多個來源的數據，且數值不一樣

數據的合法性----例如獲取的數據與常識不符，年齡大於150歲

數據的一致性----例如不同來源的不同指標，實際內涵是一樣的，或是同一指標內涵不一致

數據清洗的結果是對各種臟數據進行對應方式的處理，得到標準的、干凈的、連續的數據，提供給數據統計、數據挖掘等使用。

那麼為了解決以上的各種問題，我們需要不同的手段和方法來一一處困飢沖理。

每種問題都有各種情況，每種情況適用不同的處理方法，具體如下：

解決數據的完整性問題：

解題思路：數據缺失，那麼補上就好了。

補數據有什麼方法？

通過其他信息補全，例如使用身份證件號碼推算性別、籍貫、出生日期、年齡等

通過前後數據補全，例如時間序列缺數據了，可以使用前後的均值，缺的多了，可以使用平滑等處理，Matlab可以自動補全

實在補不全的，雖然很可惜，但也必須要剔除。但是不要刪掉，沒准以後可以用得上

解決數據的唯一性問題

解題思路：去除重復記錄，只保留一條。

去重的方法有：

按主鍵去重，用sql或者excel「去除重復記錄」即可，

按規則去重，編寫一系列的規則，對重復情況復雜的數據進行去重。例如不同渠道來的客戶數據，可以通過相同的關鍵信息進行匹配，合並去重。

解決數據的權威性問題

解題思路：用最權威的那個渠道的數據

方法:

對不同渠道設定權威級別，例如：在家裡，首先得相信媳婦說的。。。

解決數據的合法性問題

解題思路：設定判定規則

設定強制合法規則，凡是不在此規則范圍內的，強制設為最大值，或者判為無效，剔除

欄位類型合法規則：日期欄位格式為「2010-10-10」

欄位內容合法規則：性別 in （男、女、未知）；出生日期<=今天

設定警告規則，凡是不在此規則范圍內的，進行警告，然後人工處理

警告規則：年齡》110

離群值人工特殊處理，使用分箱、聚類、回歸、等方式發現離群值

解決數據的一致性問題

解題思路：建立數據體系，包含但不限於：

指標體系（度量）

維度（分組、統計口徑）

單位

頻度

數據

讓數據更適合做挖掘或展示

目標包括但不限於：

高維度----不適合挖掘

維度太低----不適合挖掘

無關信息----減少存儲

欄位冗餘----一個字汪殲段是其他字肢散段計算出來的，會造成相關系數為1或者主成因分析異常）

多指標數值、單位不同----如GDP與城鎮居民人均收入數值相差過大

解決高維度問題

解題思路：降維，方法包括但不限於：

主成分分析

隨機森林

解決維度低或缺少維度問題

解題思路：抽象，方法包括但不限於：

各種匯總，平均、加總、最大、最小等

各種離散化，聚類、自定義分組等

解決無關信息和欄位冗餘

解決方法：剔除欄位

解決多指標數值、單位不同問題

解決方法：歸一化，方法包括但不限於：

最小-最大

零-均值

小數定標

9. 大數據時代，為什麼要對數據進行清洗

簡單的來說，進行數據清洗就是使數據變得完整，從而使後續對這些數據進行分析的結果更為准確

10. 數據冗餘是不是應該消除干凈

數據冗餘指數據之間的重復，也可以說是同一數據存儲在不同數據文件中的現象手好。可以說增加數據的獨立性和減少數據冗餘為企業范圍信息資源管理和大規模信息系統獲得成功的前提條件。
數據拆槐冗餘會妨礙資料庫中數據的完整性(integrality)，也會造成存貯空間的浪費。盡可能地降低數據冗餘度，是資料庫設計的主要目標之一。關系模式的規范化理淪(以下稱NF理論)的主要思想之一就是最小冗餘原則，即規范化的關系模式在某種意義上應該冗餘度最小。
但是，NF理論沒有標準的概念可用，按等價原則，在有或沒有泛關系假設(universal relation assumption)等不同前提下，冗餘的定義可能有好幾種。
數據的應用中為了某種目的採取數據冗餘方式。

1、重復存儲或傳輸數據以防止數據的丟失。
2、對數據進行冗餘性的編碼來防止數據的丟失、錯誤，並提供對錯誤數據進行反變換得到原始數據的功能。
3、為簡化流程所造成額數據冗餘。
4、為加快處理過程而將同一數據在不同地點存放。
5、為方便處理而使同一信息在不同地點有不同的表現形式。
6、大量數據的索引，一般在資料庫中經常使用。
7、方法類的信息冗餘。
8、為了完備性而配備的冗餘數據。
9、規則性的冗餘。根據法律、制度、規則等約束進行的畢御鉛。
10、為達到其他目的所進行的冗餘。

閱讀全文

與什麼樣的臟數據不需要清理掉相關的資料

熱點內容

win10錯誤2系統找不到指定文件發布：2025-04-26 16:23:14 瀏覽：327

U盤啟動載入資源文件失敗發布：2025-04-26 16:20:08 瀏覽：459

怎樣把ug的pdf文件導入cad 發布：2025-04-26 16:17:48 瀏覽：148

c盤文件刪不了怎麼辦發布：2025-04-26 16:00:17 瀏覽：248

win7無線網路禁用發布：2025-04-26 15:56:08 瀏覽：455

如何把電腦文件夾圖片放置在一起發布：2025-04-26 15:47:32 瀏覽：702

如何對訪談法進行數據分析發布：2025-04-26 15:47:29 瀏覽：388

國土三調文件用什麼軟體什麼打開發布：2025-04-26 15:47:20 瀏覽：651

數控銑床編程特點是什麼發布：2025-04-26 15:45:01 瀏覽：119

飛鴿傳輸一次能傳多少文件發布：2025-04-26 15:37:46 瀏覽：488

手機照片許可權怎麼設置密碼發布：2025-04-26 15:37:40 瀏覽：341

es文件瀏覽器怎麼隱藏發布：2025-04-26 15:17:19 瀏覽：649

刪除的文件為什麼恢復發布：2025-04-26 14:59:37 瀏覽：314

血緣詛咒怎麼升級發布：2025-04-26 14:35:19 瀏覽：604

文件分享到微信怎麼操作發布：2025-04-26 14:35:18 瀏覽：393

tmx文件trados 發布：2025-04-26 14:35:10 瀏覽：704

大數據與會計選課怎麼選發布：2025-04-26 14:34:18 瀏覽：684

網路的不穩定因素有哪些發布：2025-04-26 14:24:28 瀏覽：950

獵豹瀏覽器javascript 發布：2025-04-26 14:12:22 瀏覽：723

哪個列印軟體保存數據時間長發布：2025-04-26 14:08:28 瀏覽：873

導航:首頁 > 數據分析 > 什麼樣的臟數據不需要清理掉

什麼樣的臟數據不需要清理掉

(6)什麼樣的臟數據不需要清理掉擴展閱讀:

與什麼樣的臟數據不需要清理掉相關的資料

友情鏈接