1. 臟數據潛在的隱患以及數據整合
很少有什麼IT項目比數據整合更令人頭疼的了 如果我們換個方式思考 就會發現有一件事是比數據整合更可怕的 那就是數據整合出現了問題
有時候 這是由於用戶出錯或者惡意用戶的蓄意破壞 導致不良數據堆積引起的問題 有時候原始數據是完好無損的 但是從一個系統/資料庫轉移到另一個系統/資料庫的過程中丟失 被刪截或者被修改了 也會造成麻煩 數據會過時 也會在你企業內部的人事斗爭過程中不幸被流彈擊中 要知道每個人都是死抱著自己的一小片數據存儲地盤 不願與其他人分享
有很多的方式會導致數據項目的流產 本文列舉了其中五種最常見的情況 告訴你究竟是什麼地方出錯了 將會導致什麼樣的後果 以及可以採取什麼措施避免同樣的情況發生在自己身上 文中所涉及的公司名字一概隱去 希望不要讓你自己的經歷像本文所敘述的對象那樣淪為他人口中的經驗教訓
親愛的 *** 郵件事件
小心你的數據來源 它有可能會反過來擺你一道 這個事例源於一個大型金融服務機構的客戶呼叫中心 就像幾乎所有的客服櫃台一樣 這里的客戶服務代表們要做的就是接聽電話 並把客戶信息輸入到一個共享資料庫里
這個特殊的資料庫里有一列是用來記錄稱謂的 並且是可編輯的 但是資料庫管理員並沒有對這一列的輸入規則進行約束 例如只能輸入某某先生 某某女士之類的稱謂 反而可以接受客服代表輸入的任何長達 或 字元的內容 在傾聽一些客戶憤怒的投訴時 部分客服代表就會給每條記錄添加一些他們自己想出來的不完全友善的注釋 例如 這個客戶真是個 *** 這類的注釋
這種情況持續了很多年 因為機構里的其他系統都不會從這個稱謂列中提取數據 所以沒有人注意到這一情況 其後某天 市場部決定發起一次直接郵寄活動來推廣一項新服務 他們想出了一個絕妙的點子 與其花錢購買一份名單 不如利用客服櫃台的資料庫
於是 以諸如 親愛的 *** 客戶Linlin 這樣的措詞抬頭的郵件開始源源不斷的發到客戶郵箱里
當然沒有任何客戶會簽約使用這項新服務 該機構直到開始檢查他們所發出的郵件時 才弄清楚前因後果
我們擁有的數據不是屬於我們自己的 如今世界的聯系日趨緊密 很可能會有人找到了你的數據 並把它利用在一個你完全想像不到的地方 如果你從別的地方獲取數據 那麼在你利用它們執行新任務時 必須要確保你的數據質量管理水平過關了
判斷水平 過不過關 取決於你要如何利用這些數據 正確性是判斷數據質量的基本要素之一 對於直郵產業 數據的准確率達到 %至 %就可能就夠了 而對於制葯業 你就必須達到 %甚至更高 不過 沒有什麼公司想要或者需要完美的數據 更不用說為了得到完美數據而付出金錢 因為要數據保持完美的代價太昂貴了 問題是要怎樣利用數據 以及數據的准確率達到什麼程度才足夠好
死去的人有沒有選舉權
相信大家對數據清洗(Data cleansing)這個術語並不陌生 它是數據整合過程中必須進行的一個復雜過程 通過檢測和清除掉垃圾數據(包括不正確 過時 冗餘以及不完整的數據) 以保證數據的正確性 可靠性 完整性和一致性 從字面上 我們就可以看出數據清洗是一個 生死攸關 的問題 下面講述的也是 生死攸關 的事例 年美國國會選舉期間 某 *** 工作志願者在通過電話讓已登記的選民來投票的過程中發現 每十個選民中有三個是已經死裂蘆滑去的人 因此沒有資格投票 現代肆臘社會里死者數據不全所引發的問題很常見 確實也給生者帶來了很大的困擾
對於諸如保險公司 投資公司 基金公司 通訊公司等擁有大量客戶的服務類企業而言 客戶數據是其重要的財富來源 然而 客戶數據質量問題卻一直是困擾企業開發新服務項目的絆腳石 在一項關於客戶數據質量的調查研究中發現 平均而言 %的客戶數據記錄存在各種問題 例如各種證件號碼輸入錯誤 聯系方式過期等等 其中有五分之一的數據問題是由於客戶的死亡造成的 其中一部分客戶死亡時間超過十年卻仍保留著股東的身份
這並不是客戶的疏忽 只是自然發生的問題 私營企業上市 被並購或者拆分 而他們的股東數嘩螞據卻一直被保留著 甚至長達數十年之久 不過這些垃圾數據所引起的問題可能比起在不必要的郵寄費用上浪費一點錢更為嚴重 最令人擔心的問題莫過於欺詐和盜竊ID 如果這些情況發生在頗具影響力的機構組織里 必會導致更為嚴重的現實問題 例如已故股東的紅利被陌生人兌現 繼承人的繼承權被剝奪 公司機密泄漏等等
那麼要怎麼解決這個問題呢?利用商業評測軟體可以識別不同系統的異常數據並做好標記方便檢查 即便如此 所有的企業都應當加強重視 做好內部監控 嚴格執行例行的基本檢查 事實上 每一個企業都或多或少存在垃圾數據方面的問題 從風險管理的觀點來看 最好的解決方案就是持之以恆地檢查 如果你從上文的內容能認識到這個自然發生的現象可能會對你產生什麼影響的話 已經有了一個好的開始
數據重復的代價
用戶出錯會引發麻煩事 用戶自作聰明造成的問題可能更嚴重 某保險公司從上世紀 年代開始就將大部分客戶資料保存在一個主應用軟體中 並規定數據錄入操作員錄入新數據前先要搜索資料庫中是否已經有該客戶的記錄 但是搜索功能執行起來非常慢而且不夠准確 所以大多數操作員不再執行這一步驟 而從頭開始輸入新記錄 這樣做確實簡單輕松多了 然而 結果是很多客戶公司的記錄在資料庫里重復達幾百次 使系統運行地更慢 數據搜索結果更加不準確 形成了惡性循環
不幸的是 這個應用軟體已經根深蒂固的嵌入到該公司的其他系統了 管理部門不願意花錢把它替換掉 最後 該公司的IT部門發現如果公司再也無法查找用戶資料了 將會造成的每天 萬美元的損失 直到這時候 公司才如夢初醒 使用識別系統來清洗數據 最終清除了近四萬條重復記錄
重復數據的問題一直都讓IT管理員頭痛不已 資料庫越龐大 這個問題越嚴重 但是 很少有人真正認識到問題的嚴重性 如果有人告訴你他的客戶資料庫里有 %的重復數據 很可能低估了 不過 我們也沒有什麼靈丹妙葯徹底解決這個問題 即使我們能夠利用數據匹配技術來沙裡淘金 跨越多個資料庫找出唯一有用的信息 最難的一關可能是讓企業里的不同利益團體就什麼數據可以大家共享以及如何構建匹配達成一致 同一個機構里的兩個不同的部門可能對匹配和重復項有完全不同的定義 類似的數據整合工作會因為相關人員不能對 誰才是數據的所有者 以及 什麼數據可以拿來與別人交換 的意見不和而土崩瓦解
小心老化的數據
相信很多人對魔域大冒險(Zork)這款最經典的文字冒險游戲還記憶猶新 通過問答形式由游戲設置提供情景描述 而玩家輸入選擇關鍵詞判斷來推動游戲發展 是現代RPG游戲的鼻祖 現在 還有不少人仍在開發這類古老的游戲 這也沒什麼 問題是他們資料庫里保存的用戶資料也同樣的古老
某老款游戲開發商利用MailChimp的網路營銷服務來聯系以前的一萬名客戶 就是為了提醒他們游戲的第二版終於完成了 他們所用的大部分電子郵件地址至少是十年前的 其中有一部分是Hotmail帳戶 很久之前就被遺棄不用了 以致微軟已經把這些郵件地址當成垃圾郵件陷阱了 於是 一天之內 所有的MailChimp郵件都被Hotmail的垃圾郵件過濾器列入了黑名單
幸好游戲開發商以前保留了原始記錄 包括每位客戶下載其游戲時的IP地址 這成了MailChimp的救命稻草 MailChimp給Hotmail的客服發了緊急申明 證明這些郵箱帳戶是合法客戶 只是年代比較久遠 第二天 hotmail就把MailChimp從黑名單中解救出來了
所有的數據都會快速老化 就像放射性物質發生衰變一樣 而聯絡數據比其他數據老化得更快 資料庫管理人員必須定期更新每一個系統的數據
美國工商資料庫是個巨額產業 而聯絡資料是所有資料中最受銷售人員青睞的 但也是最難維護的 年成立於美國的是一個在線商務聯絡資料資料庫 面向銷售專業人員 採用Wiki式數據清洗方式來維護 該網站的三十多萬名用戶通過上傳新名片資料或糾正錯誤的名片資料來換取點數 上傳的每條記錄必須完整 如果上傳不正確或是資料太老舊 就會扣除相應的點數 而用戶能得到的利益就是用獲得的點數購買自己所需要的名片資料
Jigsaw的首席執行官Jim Fowler稱一家科技公司想要把他們公司的資料庫和Jigsaw的資料庫進行比較 以便清除不良數據 該科技公司擁有四萬條記錄 其中只有 %是當前可用的 而且全部數據都不完整 Jigsaw發現他們大部分合作客戶都擁有很多毫無價值的數據 根本就沒辦法去匹配糾正 公司花費了數百萬美元在客戶關系管理軟體上 可見這些數據有多糟糕 有時候公司的真正價值不在擁有的數據本身 而在於有沒有能力與時俱進地跟上數據變化的速度 Jigsaw的能力正是在於完善數據並進行自我清洗 如果沒有自我修正的機制 Jigsaw也只不過是一家毫無價值的數據公司而已
小錯誤與大麻煩
好數據和不良數據之間的差別很可能就體現在一個小點上 某專案優化解決方案供應商的高級顧問告訴我們 他曾為一個大型數據整合項目做顧問 這個項目看起來一切都運行正常 但六個月後 某人打開一個數據表 只看到了一排排符號 什麼數據都沒有
這其實只是一個字元代碼錯誤 本來在一些域里應該用省略號(三個點)的 但有人只輸入了兩個點 導致了整個數據線的崩潰 該公司不得不費盡力氣從備份中重新創建整個資料庫 查找省略號 然後用正確數據替換
很多時候 問題不僅僅是簡單的數據錄入錯誤或者是 臟數據進臟數據出 的問題而已 很多企業在進行不同操作系統之間的數據移植或從老的SQL版本中升級數據等操作時並沒有做好充分計劃 他們總是希望利用手頭上任何可利用資源火速進行 而把數據清洗任務冀望於以後完成 更甚者 他們的測試環境和操作環境可能並不一致 或者他們只用少量數據子集來測試 沒有測試過的數據很可能會在後面的操作引發大麻煩
企業經歷著深刻的技術革命 卻沒有在數據整合和維護的管理上花費足夠的時間和精力 最終只會成為不良數據的犧牲品 在數據遷移的過程中 有無數的機會讓它們成為不良數據
不要指望IT部門來驗證你的數據 讓與這些數據密切相關的有能力的用戶來幫助你做好數據整合計劃和測試 在你決定進行整合之前 先查看一下所有數據 確定用於從中提取數據的應用軟體 如果可以 最好測試所有的數據而不是其中某個子集 要知道正如上面的例子所示 就算是一個小的不能再小的錯誤都會把你和你的數據拉進痛苦的深淵
我們最後再用一個實例來說明小錯誤和大麻煩之間的關系
某商業風險管理解決方案供應商的某位客戶創建了一個SQL伺服器資料庫 用來確定是否有錯誤的CAD文件在其網路內部流竄 原本的設想是 如果錯誤的數據包超過某設定閾值 公司管理員就會知道並進行數據挖掘和清洗工作 問題是他們不小心顛倒了資料庫的規則設置(把兩個閾值放反了) 導致錯誤數據包越多 提交公司的報告里顯示的網路運行情況就越好 最後該公司網路被某種蠕蟲病毒入侵 破壞了他們的工程CAD檔案 他們不得不重頭開始花費大量的金錢來重建大部分的文檔 這一切都是因為一個非常簡單數據提取設置錯誤造成的
lishixin/Article/program/Oracle/201311/17541
2. 數據清理中需要考慮到的因素包括
1、預處理:在實際業務處理中,數據通常磨斗是臟數據。所謂的臟,指數據可能存在以下幾種問題(主要問題)
1、預處理:在實際業務處理中,數據通常是臟數據。所謂的臟,指數據可能存在以下幾種問題(主要問題):
1.數據缺失(Incomplete)是老伏屬性值為空的情況。如Occupancy=「」
2.數據雜訊(Noisy)是數據值不合常理的情況。如Salary=「瞎含磨-100」
3.數據不一致(Inconsistent)是數據前後存在矛盾的情況。
如Age=「42」vs.Birthday=「01/09/1985」
4.數據冗餘(Rendant)是數據量或者屬性數目超出數據分析需要的情況。
5.數據集不均衡(Imbalance)是各個類別的數據量相差懸殊的情況。
6.離群點/異常值(Outliers)是遠離數據集中其餘部分的數據。
7.數據重復(Duplicate)是在數據集中出現多次的數據。標准化處理如:id對應不上淘寶個人信息表1阿宏xxxx支付寶個人信息表阿宏xxxx天貓個人信息表3阿宏xxxx標准化後對照表idnametbidzfbidtmId0001阿宏123淘寶個人信息表(+Standardid)1阿宏xxxx001支付寶個人信息表2阿宏xxxx001天貓個人信息表3阿宏xxxx00
去重處理分2種類型_全部欄位:distinctgroupby、row_number_核心欄位:row_number處理結果需要保留哪條數據要看具體情況4、錯誤值處理:邏輯錯誤、主外鍵不一致、全形半形、數據移位。缺失值處理,重新收集,分數據的重要程度平均法、中位數取行業標准取最常用的值空值替換
6、格式內容的處理時間、日期、數值、全半形格式不一致內容中不應該存在的內容內容與改欄位應有的內容不一致
7、邏輯錯誤處理,年齡超過200、月份13月日期2月30,按照缺失值處理
8、修正矛盾數據確定那個欄位是正確的
9、非需求數據清洗
10.關聯性驗證
3. 標題 為什麼要進行數據清洗如果不進行數據清洗會有什麼影響
為了保證數據的准確性和完整性,如果沒有數據清洗那麼結果會產生誤差。
數據清洗是指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。與問卷審核不同,錄入後的數據清理一般是由計算機而不是人工完成。
數據清洗方法
一般來說,數據清理是將資料庫精簡以除去重復記錄,並使剩餘部分轉換成標准可接收格式的過程。
數據清理標准模型是將數據輸入到數據清理處理器,通過一系列步驟「 清理」數據,然後以期望的格式輸出清理過的數據。數據清理從數據的准確性、完整性、一致性、惟一性、適時性、有效性幾個方面來處理數據的丟失值、越界值、不一致代碼、重復數據等問題。
數據清理一般針對具體應用,因而難以歸納統一的方法和步驟,但是根據數據不同可以給出相應的數據清理方法。
4. 數據清洗需清理哪些數據
數據清洗需要清理的數據,是輸入數據後需要對數據進行預處理,只有處理得當的數據才能進到數據挖掘的步驟。而處理數據包括對數據數量和質量的處理。
包括對缺失的數據有添補或刪除相關行列方法,具體步驟自己判斷,如果數據量本來就很少還堅持刪除,那就是自己的問題了。
添補:常用拉格朗日插值或牛頓插值法,也蠻好理解,屬於數理基礎知識。(pandas庫里自帶拉格朗日插值函數,而且這個好處是還可以在插值前對數據進行異常值檢測,如果異常那麼該數據就也被視為需要進行插值的對象)。
刪除:這個也好理解,就是對結果分析沒有直接影響的數據刪除。
異常值
這個是否剔除需要視情況而定
像問題1中視為缺失值重新插值
刪除含有異常值的記錄(可能會造成樣本量不足,改變原有分布)
平均值修正(用前後兩個觀測值平均值)
綜上,還是方案一靠譜。
人生苦短,學好python
3 數據量太多,有三種方法:集成,規約,變換
(1)數據是分散的時,這個就是指要從多個分散的數據倉庫中抽取數據,此時可能會造成冗餘的情況。此時要做的是【數據集成】。
數據集成有兩方面內容:
①冗餘屬性識別②矛盾實體識別
屬性:
對於冗餘屬性個人理解是具有相關性的屬性分別從不同的倉庫中被調出整合到新表中,而新表中由於屬性太多造成冗餘,這時可以靠相關性分析來分析屬性a和屬性b的相關系數,來度量一個屬性在多大程度上蘊含另一個屬性。等等。
數據清洗時預處理階段主要做兩件事情:
一是將數據導入處理工具。通常來說,建議使用資料庫,單機跑數搭建MySQL環境即可。如果數據量大(千萬級以上),可以使用文本文件存儲+Python操作的方式。
二是看數據。這里包含兩個部分:一是看元數據,包括欄位解釋、數據來源、代碼表等等一切描述數據的信息;二是抽取一部分數據,使用人工查看方式,對數據本身有一個直觀的了解,並且初步發現一些問題,為之後的處理做准備。
數據清洗是整個數據分析過程中不可缺少的一個環節,其結果質量直接關繫到模型效果和最終結論。在實際操作中,數據清洗通常會占據分析過程的50%—80%的時間。
5. 數據清洗是什麼數據清洗有哪些方法
隨著大數據時代的發展,越來越多的人開始投身於大數據分析行業。當我們進行大數據分析時,我們經常聽到熟悉的行業詞,如數據分析、數據挖掘、數據可視化等。然而,雖然一個行業詞的知名度不如前幾個詞,但它的重要性相當於前幾個詞,即數據清洗。
顧名思義,數據清洗是清洗臟數據,是指在數據文件中發現和糾正可識別錯誤的最後一個程序,包括檢查數據一致性、處理無效值和缺失值。哪些數據被稱為臟數據?例如,需要從數據倉庫中提取一些數據,但由於數據倉庫通常是針對某一主題的數據集合,這些數據是從多個業務系統中提取的,因此不可避免地包含不完整的數據。錯誤的數據非常重復,這些數據被稱為臟數據。我們需要藉助工具,按照一定的規則清理這些臟數據,以確保後續分析結果的准確性。這個過程是數據清洗。
常用的數據清洗方法主要有以下四種:丟棄、處理和真值轉換。讓我們來看看這四種常見的數據清洗方法。
1、丟棄部分數據
丟棄,即直接刪除有缺失值的行記錄或列欄位,以減少趨勢數據記錄對整體數據的影響,從而提高數據的准確性。但這種方法並不適用於任何場景,因為丟失意味著數據特徵會減少,以下兩個場景不應該使用丟棄的方法:數據集中存在大量數據記錄不完整和數據記錄缺失值明顯的數據分布規則或特徵。
2、補全缺失的數據
與丟棄相比,補充是一種更常用的缺失值處理方法,通過某種方法補充缺失的數據,形成完整的數據記錄對後續的數據處理。分析和建模非常重要。
3、不處理數據
不處理是指在數據預處理階段,不處理缺失值的數據記錄。這主要取決於後期的數據分析和建模應用。許多模型對缺失值有容忍度或靈活的處理方法,因此在預處理階段不能進行處理。
4、真值轉換法
承認缺失值的存在,並將數據缺失作為數據分布規律的一部分,將變數的實際值和缺失作為輸入維度參與後續數據處理和模型計算。然而,變數的實際值可以作為變數值參與模型計算,而缺失值通常不能參與計算,因此需要轉換缺失值的真實值。
俗話說,工欲善其事,必先利其器。一個好用的工具對數據清洗工作很有幫助,思邁特軟體Smartbi的數據清洗功能就十分優秀。
思邁特軟體Smartbi的輕量級ETL功能,可視化流程配置,簡單易用,業務人員就可以參與。採用分布式計算架構,單節點支持多線程,可處理大量數據,提高數據處理性能。強大的數據處理功能不僅支持異構數據,還支持內置排序、去重、映射、行列合並、行列轉換聚合以及去空值等數據預處理功能。
現在你知道什麼是數據清洗嗎?數據清洗是數據分析中一個非常重要的環節,不容忽視。Smartbi的這些功能配置,無疑是數據清洗的好幫手。
6. 什麼是臟數據
臟數據(Dirty Read)是指源系統中的數據不在給定的范圍內或對於實際業務毫無意義,或是數據格侍宴式非法,以及在源系統中存在不規范的編碼和含糊的業務邏輯。
通俗的講,當一個事務正在訪問數據,並且對數據進行了修改,而這種修改還沒有提交到資料庫中,這時,另外一個事務也訪問這個數據,然後使用了這個數據。
因為這個數據是還沒有提交的數據,那麼另外一個事務讀到的這個數據是臟數據,依據臟數據所做的操作可能是不正確的。
臟數據產生的影響:
1、丟失的修改:一個事物的更新覆蓋了另一個事物的更新。例如:事物A和B讀入同一數據並修渣廳改,B提交的結果破壞了A提交的結果,導致A的修改被丟失。
2、不可重復讀:一個事物兩次讀取同一個數據,兩次讀取的數據不一致。不可重復讀是指事物A讀取數據後,事物B執行更新操作,事務A 無法再現前一次讀取結果。
(1)事物A讀取某一數據後,事物B對其作了修改,當事物A再次讀取數據時,得到與前一次不同的值。
(2)事物A按一定的條件從資料庫中讀取了某些數據後,事物B刪除了其中部分記錄,當A再次以相同條件讀取時,發現某些記錄消失了。
3、臟讀:一個事物讀取了另一個事物未提交的數據。讀「臟」數據是指事物A修改某一數據,並將其寫回磁碟,事物B讀取同一數據後,A由於某種原因被撤銷,這時A已修改過的數據恢復原值,B讀到的數據就與資料庫中的數據不一致,則B讀到的數據為「臟」數據,即不正確的數據。
4、幻讀:一個事務按相同的查詢條件重新讀取以前檢索過的數據,卻發現其他事務插入了滿足其查詢條件的新數據,這種現象就稱為「老梁銀幻讀」。
7. 干凈數據是不需要清洗的數據
干凈數據,clean data,大數據新詞。
數據清洗的目的是解決「臟」數據問題,即不是將「臟」數據洗掉,而是將「臟」數據洗干凈。干凈的數據指的是滿足質量要求的數據。
8. 數據清洗
從兩個角度上看,數據清洗一是為了解決數據質量問題,二是讓數據更適合做挖掘。不同的目的下分不同的情況,也都有相應的解決方式和方法。在此簡略描述一下,若有錯誤,請指出,不勝感激!
解決數據質量問題
解決數據的各種問題,包括但不限於:
數據的完整性----例如人的屬性中缺少性別、籍貫、年齡等
數據的唯一性----例如不同來源的數據出現重復的情況
數據的權威性----例如同一個指標出現多個來源的數據,且數值不一樣
數據的合法性----例如獲取的數據與常識不符,年齡大於150歲
數據的一致性----例如不同來源的不同指標,實際內涵是一樣的,或是同一指標內涵不一致
數據清洗的結果是對各種臟數據進行對應方式的處理,得到標準的、干凈的、連續的數據,提供給數據統計、數據挖掘等使用。
那麼為了解決以上的各種問題,我們需要不同的手段和方法來一一處困飢沖理。
每種問題都有各種情況,每種情況適用不同的處理方法,具體如下:
解決數據的完整性問題:
解題思路:數據缺失,那麼補上就好了。
補數據有什麼方法?
通過其他信息補全,例如使用身份證件號碼推算性別、籍貫、出生日期、年齡等
通過前後數據補全,例如時間序列缺數據了,可以使用前後的均值,缺的多了,可以使用平滑等處理,Matlab可以自動補全
實在補不全的,雖然很可惜,但也必須要剔除。但是不要刪掉,沒准以後可以用得上
解決數據的唯一性問題
解題思路:去除重復記錄,只保留一條。
去重的方法有:
按主鍵去重,用sql或者excel「去除重復記錄」即可,
按規則去重,編寫一系列的規則,對重復情況復雜的數據進行去重。例如不同渠道來的客戶數據,可以通過相同的關鍵信息進行匹配,合並去重。
解決數據的權威性問題
解題思路:用最權威的那個渠道的數據
方法:
對不同渠道設定權威級別,例如:在家裡,首先得相信媳婦說的。。。
解決數據的合法性問題
解題思路:設定判定規則
設定強制合法規則,凡是不在此規則范圍內的,強制設為最大值,或者判為無效,剔除
欄位類型合法規則:日期欄位格式為「2010-10-10」
欄位內容合法規則:性別 in (男、女、未知);出生日期<=今天
設定警告規則,凡是不在此規則范圍內的,進行警告,然後人工處理
警告規則:年齡》110
離群值人工特殊處理,使用分箱、聚類、回歸、等方式發現離群值
解決數據的一致性問題
解題思路:建立數據體系,包含但不限於:
指標體系(度量)
維度(分組、統計口徑)
單位
頻度
數據
讓數據更適合做挖掘或展示
目標包括但不限於:
高維度----不適合挖掘
維度太低----不適合挖掘
無關信息----減少存儲
欄位冗餘----一個字汪殲段是其他字肢散段計算出來的,會造成相關系數為1或者主成因分析異常)
多指標數值、單位不同----如GDP與城鎮居民人均收入數值相差過大
解決高維度問題
解題思路:降維,方法包括但不限於:
主成分分析
隨機森林
解決維度低或缺少維度問題
解題思路:抽象,方法包括但不限於:
各種匯總,平均、加總、最大、最小等
各種離散化,聚類、自定義分組等
解決無關信息和欄位冗餘
解決方法:剔除欄位
解決多指標數值、單位不同問題
解決方法:歸一化,方法包括但不限於:
最小-最大
零-均值
小數定標
9. 大數據時代,為什麼要對數據進行清洗
簡單的來說,進行數據清洗就是使數據變得完整,從而使後續對這些數據進行分析的結果更為准確
10. 數據冗餘是不是應該消除干凈
數據冗餘指數據之間的重復,也可以說是同一數據存儲在不同數據文件中的現象手好。可以說增加數據的獨立性和減少數據冗餘為企業范圍信息資源管理和大規模信息系統獲得成功的前提條件。
數據拆槐冗餘會妨礙資料庫中數據的完整性(integrality),也會造成存貯空間的浪費。盡可能地降低數據冗餘度,是資料庫設計的主要目標之一。關系模式的規范化理淪(以下稱NF理論)的主要思想之一就是最小冗餘原則,即規范化的關系模式在某種意義上應該冗餘度最小。
但是,NF理論沒有標準的概念可用,按等價原則,在有或沒有泛關系假設(universal relation assumption)等不同前提下,冗餘的定義可能有好幾種。
數據的應用中為了某種目的採取數據冗餘方式。
1、重復存儲或傳輸數據以防止數據的丟失。
2、對數據進行冗餘性的編碼來防止數據的丟失、錯誤,並提供對錯誤數據進行反變換得到原始數據的功能。
3、為簡化流程所造成額數據冗餘。
4、為加快處理過程而將同一數據在不同地點存放。
5、為方便處理而使同一信息在不同地點有不同的表現形式。
6、大量數據的索引,一般在資料庫中經常使用。
7、方法類的信息冗餘。
8、為了完備性而配備的冗餘數據。
9、規則性的冗餘。根據法律、制度、規則等約束進行的畢御鉛。
10、為達到其他目的所進行的冗餘。