導航:首頁 > 數據分析 > 缺失客戶性別數據有什麼影響

缺失客戶性別數據有什麼影響

發布時間:2023-05-30 01:20:00

㈠ ​一文看懂數據清洗:缺失值、異常值和重復值的處理

作者:宋天龍

如需轉載請聯系華章 科技

數據缺失分為兩種:一種是 行記錄的缺失 ,這種情況又稱數據記錄丟失;另一種是 數據列值的缺失 ,即由於各種原因導致的數據記錄中某些列的值空缺。

不同的數據存儲和環境中對於缺失值的表示結果也不同,例如,資料庫中是Null,Python返回對象是None,Pandas或Numpy中是NaN。

在極少數情況下,部分缺失值也會使用空字元串來代替,但空字元串絕對不同於缺失值。從對象的實體來看,空字元串是有實體的,實體為字元串類型;而缺失值其實是沒有實體的,即沒有數據類型。

丟失的數據記錄通常無法找回,這里重點討論數據列類型缺失值的處理思路。通常有4種思路。

1. 丟棄

這種方法簡單明了,直接刪除帶有缺失值的行記錄(整行刪除)或者列欄位(整列刪除),減少缺失數據記錄對總體數據的影響。 但丟棄意味著會消減數據特徵 ,以下任何一種場景都不宜採用該方法。

2. 補全

相對丟棄而言,補全是更加常用的缺失值處理方式。通過一定的方法將缺失的數據補上,從而形成完整的數據記錄,對於後續的數據處理、分析和建模至關重要。常用的補全方法如下。

3. 真值轉換法

在某些情況下,我們可能無法得知缺失值的分布規律,並且無法對於缺失值採用上述任何一種補全方法做處理;或者我們認為數據缺失也是一種規律,不應該輕易對缺失值隨意處理,那麼還有一種缺失值處理思路—真值轉換。

該思路的根本觀點是, 我們承認缺失值的存在,並且把數據缺失也作為數據分布規律的一部分 ,將變數的實際值和缺失值都作為輸入維度參與後續數據處理和模型計算中。但是變數的實際值可以作為變數值參與模型計算,而缺失值通常無法參與運算,因此需要對缺失值進行真值轉換。

以用戶性別欄位為例,很多資料庫集都無法對會員的性別進行補足,但又捨不得將其丟棄掉,那麼我們將選擇將其中的值,包括男、女、未知從一個變數的多個值分布狀態轉換為多個變數的真值分布狀態。

然後將這3列新的欄位作為輸入維度替換原來的1個欄位參與後續模型計算。

4. 不處理

在數據預處理階段,對於具有缺失值的數據記錄不做任何處理,也是一種思路。這種思路主要看後期的數據分析和建模應用, 很多模型對於缺失值有容忍度或靈活的處理方法 ,因此在預處理階段可以不做處理。

常見的能夠自動處理缺失值的模型包括:KNN、決策樹和隨機森林、神經網路和樸素貝葉斯、DBSCAN(基於密度的帶有雜訊的空間聚類)等。這些模型對於缺失值的處理思路是:

在數據建模前的數據歸約階段,有一種歸約的思路是 降維 ,降維中有一種直接選擇特徵的方法。假如我們通過一定方法確定帶有缺失值(無論缺少欄位的值缺失數量有多少)的欄位對於模型的影響非常小,那麼我們根本就不需要對缺失值進行處理。

因此,後期建模時的欄位或特徵的重要性判斷也是決定是否處理欄位缺失值的重要參考因素之一。

對於缺失值的處理思路是先通過一定方法找到缺失值,接著分析缺失值在整體樣本中的分布佔比,以及缺失值是否具有顯著的無規律分布特徵,然後考慮後續要使用的模型中是否能滿足缺失值的自動處理,最後決定採用哪種缺失值處理方法。

在選擇處理方法時,注意投入的時間、精力和產出價值,畢竟,處理缺失值只是整個數據工作的冰山一角而已。

在數據採集時,可在採集端針對各個欄位設置一個默認值。以MySQL為例,在設計資料庫表時,可通過default指定每個欄位的默認值,該值必須是常數。

在這種情況下,假如原本數據採集時沒有採集到數據,欄位的值應該為Null,雖然由於在建立庫表時設置了默認值會導致「缺失值」看起來非常正常,但本質上還是缺失的。對於這類數據需要尤其注意。

異常數據是數據分布的常態,處於特定分布區域或范圍之外的數據通常會被定義為異常或「噪音」。產生數據「噪音」的原因很多,例如業務運營操作、數據採集問題、數據同步問題等。

對異常數據進行處理前,需要先辨別出到底哪些是真正的數據異常。從數據異常的狀態看分為兩種:

大多數數據挖掘或數據工作中,異常值都會在數據的預處理過程中被認為是噪音而剔除,以避免其對總體數據評估和分析挖掘的影響。但在以下幾種情況下,我們無須對異常值做拋棄處理。

1. 異常值正常反映了業務運營結果

該場景是由業務部門的特定動作導致的數據分布異常,如果拋棄異常值將導致無法正確反饋業務結果。

例如:公司的A商品正常情況下日銷量為1000台左右。由於昨日舉行優惠促銷活動導致總銷量達到10000台,由於後端庫存備貨不足導致今日銷量又下降到100台。在這種情況下,10000台和100台都正確地反映了業務運營的結果,而非數據異常案例。

2. 異常檢測模型

異常檢測模型是針對整體樣本中的異常數據進行分析和挖掘,以便找到其中的異常個案和規律,這種數據應用圍繞異常值展開,因此異常值不能做拋棄處理。

異常檢測模型常用於客戶異常識別、信用卡欺詐、貸款審批識別、葯物變異識別、惡劣氣象預測、網路入侵檢測、流量作弊檢測等。在這種情況下,異常數據本身是目標數據,如果被處理掉將損失關鍵信息。

3. 包容異常值的數據建模

如果數據演算法和模型對異常值不敏感,那麼即使不處理異常值也不會對模型本身造成負面影響。例如在決策樹中,異常值本身就可以作為一種分裂節點。

數據集中的重復值包括以下兩種情況:

去重是重復值處理的主要方法,主要目的是保留能顯示特徵的唯一數據記錄。但當遇到以下幾種情況時,請慎重(不建議)執行數據去重。

1. 重復的記錄用於分析演變規律

以變化維度表為例。例如在商品類別的維度表中,每個商品對應的同1個類別的值應該是唯一的,例如蘋果iPhone7屬於個人電子消費品,這樣才能將所有商品分配到唯一類別屬性值中。但當所有商品類別的值重構或升級時(大多數情況下隨著公司的發展都會這么做),原有的商品可能被分配了類別中的不同值。如下表所示展示了這種變化。

此時,我們在數據中使用Full join做跨重構時間點的類別匹配時,會發現蘋果iPhone7會同時匹配到個人電子消費品和手機數碼2條記錄。對於這種情況,需要根據具體業務需求處理。

2. 重復的記錄用於樣本不均衡處理

在開展分類數據建模工作時,樣本不均衡是影響分類模型效果的關鍵因素之一。解決分類方法的一種方法是對少數樣本類別做簡單過采樣,通過隨機過采樣,採取簡單復制樣本的策略來增加少數類樣本。

經過這種處理方式後,也會在數據記錄中產生相同記錄的多條數據。此時,我們不能對其中的重復值執行去重操作。

3. 重復的記錄用於檢測業務規則問題

對於以分析應用為主的數據集而言,存在重復記錄不會直接影響實際運營,畢竟數據集主要是用來做分析的。

但對於事務型的數據而言, 重復數據可能意味著重大運營規則問題 ,尤其當這些重復值出現在與企業經營中與金錢相關的業務場景時,例如:重復的訂單、重復的充值、重復的預約項、重復的出庫申請等。

這些重復的數據記錄通常是由於數據採集、存儲、驗證和審核機制的不完善等問題導致的,會直接反映到前台生產和運營系統。以重復訂單為例:

因此,這些問題必須在前期數據採集和存儲時就通過一定機制解決和避免。如果確實產生了此類問題,那麼數據工作者或運營工作者可以基於這些重復值來發現規則漏洞,並配合相關部門,最大限度地降低由此而帶來的運營風險。

本文摘編自《Python數據分析與數據化運營》(第2版),經出版方授權發布。

㈡ 性別教育的缺失,會造成哪些問題

引言:性別意識是非常重要的,如果自己家的孩子不知道男女有別,不知道怎樣去保護自己的隱私部位的話,就會鏈舉出現問題。但是有很多的國內家長都不重視性別教育,性別教育缺失是容易造成一些不好的影響的,那麼都會造成哪些問題呢?

㈢ 交通銀行九要素缺失客戶怎麼處理

九要素指的是睜啟姓名、證件類型、證件號碼、證件有效期、國籍、性別、職業、聯系地址、聯系電悉扮如話這九種信息,你只需要把這些信息缺圓前往交通銀行補齊即可。

交通銀行九要素缺失很多業務都不能辦理要盡快補齊。

㈣ 對於缺失值的處理

建議:不同場景下的數據缺失機制不同,這需要工程師基於對業務選擇合適的填充方法。

如何判斷缺失值類型?
缺失值的分類按照數據缺失機制可分為:
可忽略的缺失

不可忽略的缺失

平常工作中遇到的缺失值大部分情況下是隨機的(缺失變數和其他變數有關)

這個就可以用estimator來做了,選其中一個變數(y),然後用其他變數作為X,隨便選個值填充X的缺失部分,用X train一個estimator,再預測y的缺失部分(大致思路)

此外有些數據是符合某種分布的,利用這個分布呢也可以填充缺失的數據,如(EM演算法)

處理缺失數據的三個標准:
1. 非偏置的參數估計
不管你估計means, regressions或者是odds ratios,都希望參數估計可以准確代表真實的總體參數。在統計項中,這意味著估計需要是無偏的。有缺失值可能會影響無偏估計,所以需要處理。
2. 有效的能力:
刪除缺失數據會降低采樣的大小,因此會降低power。如果說問題是無偏的,那麼得到的結果會是顯著的,那麼會有足夠的能力來檢驗這個效力(have adequate power to detect your effects)。反之,整個檢測可能失效。
3. 准確的標准差(影響p值和置信區間):
不僅需要參數估計無偏,還需要標准差估計准確,在統計推斷中才會有效。

缺失值處理的方法大致分為這幾類:1、刪除法;2、基於插補的方法;3、基於模型的方法; 4、不處理; 5、映射高維

有些處理方法是基於完全隨機缺失假設(MCAR),一般來說,當數據不是 MCAR 而 是隨機缺失(MAR)時,這些方法是不適用的;而有些方法(如似然估計法)在 MAR 的假設下是適用的,因此,在進行缺失數據處理時,首先需要認真分析缺失數 據產生的原因,然後採取有針對性的補救措施,這樣才能夠獲得無偏或弱偏估計。

此處關於使用多重插補來處理非隨機缺失(MNAR)的問題,它其實效果不一定,也可能出現效果倒退的情況,總的說多重更適合MAR

註:此處一元與多元指的是僅有一個特徵有缺失值與多個特徵有缺失值

對於不同類別的缺失值的處理方法如上圖。

以下展開介紹各個方法:

註: k-means插補 與KNN插補很相似,區別在於k-means是利用無缺失值的特徵來尋找最近的N個點,然後用這N個點的我們所需的缺失的特徵平均值來填充,而KNN則是先用均值填充缺失值再找最近的N個點。

類似的還有 隨機回歸插補 :也優於純回歸插補

其他單一插補法:

與單一插補方法相比較,多重插補方法充分地考慮了數據的不確定性。多重插補的主要分為三個步驟,綜合起來即為:插補、分析、合並。插補步是為每個缺失值都構造出 m 個可能的插補值,缺失模型具有不確定性,這些插補值能體現出模型的這個性質,利用這些可能插補值對缺失值進行插補就得到了 m 個完整數據集。分析步是對插補後的 m 個完整數據集使用一樣的統計數據分析方法進行分析,同時得到 m 個統計結果。綜合步就是把得到的這 m 個統計結果綜合起來得到的分析結果,把這個分析結果作為缺失值的替代值。多重插補構造多個插補值主要是通過模擬的方式對估計量的分布進行推測,然後採用不同的模型對缺失值進行插補,這種插補是隨機抽取的方式,這樣以來能提高估計的有效性和可靠性。
多重插補-python手冊

多重插補法主要有以下幾種:

(使用回歸、貝葉斯、隨機森林、決策樹等模型對缺失數據進行預測。)

基於已有的其他欄位,將缺失欄位作為目標變數進行預測,從而得到較為可能的補全值。如果帶有缺失值的列是數值變數,採用回歸模型補全;如果是分類變數,則採用分類模型補全。

常見能夠自動處理缺失值模型包括:KNN、決策樹和隨機森林、神經網路和樸素貝葉斯、DBSCAN(基於密度的帶有雜訊的空間聚類)等。

處理思路:
自動插補 :例如XGBoost會通過training loss rection來學習並找到最佳插補值。
忽略 :缺失值不參與距離計算,例如:KNN,LightGBM
將缺失值作為分布的一種狀態 :並參與到建模過程,例如:決策樹以及變體。
不基於距離做計算 :因此基於值得距離計算本身的影響就消除了,例如:DBSCAN。

ID3、c4.5、cart、rf到底是如何處理缺失值的?

最精確的做法,把變數映射到高維空間。
比如性別,有男、女缺失三種情況,則映射成3個變數:是否男、否女、是否缺失。連續型變數也可以這樣處理。比如Google、 網路的CTR預估模型,預處理時會把所有變數都這樣處理,達到幾億維。又或者可根據每個值的頻數,將頻數較小的值歸為一類'other',降低維度。此做法可最大化保留變數的信息。

前推法 (LOCF,Last Observation Carried Forward,將每個缺失值替換為缺失之前的最後一次觀測值)與 後推法 (NOCB,Next Observation Carried Backward,與LOCF方向相反——使用缺失值後面的觀測值進行填補)

這是分析可能缺少後續觀測值的縱向重復測量數據的常用方法。縱向數據在不同時間點跟蹤同一樣本。當數據具有明顯的趨勢時,這兩種方法都可能在分析中引入偏差,表現不佳。

線性插值 。此方法適用於具有某些趨勢但並非季節性數據的時間序列。

季節性調整+線性插值 。此方法適用於具有趨勢與季節性的數據。

總而言之,大部分數據挖掘的預處理都會使用比較方便的方法來處理缺失值,比如均值法,但是效果上並不一定好,因此還是需要根據不同的需要選擇合適的方法,並沒有一個解決所有問題的萬能方法。

具體的方法採用還需要考慮多個方面的:

在做數據預處理時,要多嘗試幾種填充方法,選擇表現最佳的即可。

總結來說,沒有一個最完美的策略,每個策略都會更適用於某些數據集和數據類型,但再另一些數據集上表現很差。雖然有一些規則能幫助你決定選用哪一種策略,但除此之外,你還應該嘗試不同的方法,來找到最適用於你的數據集的插補策略。

當前最流行的方法應該是 刪除法、KNN、多重插補法

參考文獻: 龐新生. 缺失數據處理方法的比較[J]. 統計與決策, 2010(24):152-155.

㈤ 性別教育的缺失,那會造成哪些問題

性別教育的缺失會塵扮造成以下三個問題,第一會導致孩子有性別認知障礙,不能夠很好的找准自己的性別定位。第二,性別教育的缺失,會導致孩子誤入性早熟的歧途,不能夠正確的看待性別的差異。第三襲兄攔,性別教育的缺失,會讓孩子迷失在性別上的道德感,可能拍胡會做出傷風敗俗的事情。

㈥ 股票賬戶中個人的職業信息需要更新嗎如果不更新會影響交易嗎

需要。影響。
1、根據信陪華泰證券公告,自然人客戶的身份基本信息包括姓名、性別、國籍、職業、住所地或者工作單位地址、聯系方式等。
2、對於上述基本信息缺失的客戶需在券商指定的截至日期前登錄相應券商的APP客戶端修改。
3、股票賬戶中的個人職業信息,工作單位地址等基本內搏灶容不更新修基坦扮改,就不能進行股票交易。

㈦ 性別教育的缺失,那會造成哪些問題

性別教育的缺失會造成小孩子和同性以及異性之間的關系過於親密,在這樣的情況下很有可能就會出現一些其他的問題。如果小孩子沒有明確的性別認知的話,那麼小孩子就會覺得自己和身邊的人沒有任何的區別,在這樣的情況下就有可能會和異性做出一些過度親密的行為方式,在成長的過程當中可能也並不會意識到自己存在著怎樣的問題。

如果爸爸媽媽在教育孩子的時候忽略了性別教育的話,那麼很容易就會導致小孩子在這個過程當中出現了相應的影響,這一切對於孩子而言都是非常不對的。性別教育不僅能夠讓小孩子對於這些東西有著更清楚的認知,還能夠讓孩子學會更好地保護自己,所以說爸爸媽媽千萬不要忽略。

㈧ spss雄性雌性顯示不出來

題主是否想詢問「spss雄性雌性顯示不出來的原因」?有以下幾種原因。
1、變數的值未正確編碼為1和2。在SPSS中,將男性編碼為空餘兄1,女性編碼為2。數據集中的性別變數被編碼為其他值(例如0和1),則會出現顯示問題。
2、變數的標簽未正確設置。變數標簽未設置為「性別」或「男女」,則無法正確顯示變數。
3、數據集中缺少性別數據毀陵。沒有錄入性別數據或數據斗襲缺失率較高,則無法正確顯示性別變數。
4、在數據輸入時出現錯誤。在數據輸入時意外將男性標記為女性或者女性標記為男性,則會導致SPSS顯示不正確的性別結果。

㈨ 數據分析中的缺失值處理

數據分析中的缺失值處理
沒有高質量的數據,就沒有高質量的數據挖掘結果,數據值缺失是數據分析中經常遇到的問題之一。當缺失比例很小時,可直接對缺失記錄進行舍棄或進行手工處理。但在實際數據中,往往缺失數據佔有相當的比重。這時如果手工處理非常低效,如果舍棄缺失記錄,則會丟失大量信息,使不完全觀測數據與完全觀測數據間產生系統差異,對這樣的數據進行分析,你很可能會得出錯誤的結論。岩中
造成數據缺失的原因
現實世界中的數據異常雜亂,屬性值缺失的情粗仔山況經常發全甚至是不可避免的。造成數據缺失的原因是多方面的:
信息暫時無法獲取。例如在醫療資料庫中,並非所有病人的所有臨床檢驗結果都能在給定的時間內得到,就致使一部分屬性值空缺出來。
信息被遺漏。可能是因為輸入時認為不重要、忘記填寫了或對數據理解錯誤而遺漏,也可能是由於數據採集設備的故障、存儲介質的故障、傳輸媒體的故障、一些人為因素等原因而丟失。
有些對象的某個或某些屬性是不可用的。如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。
有些信息(被認為)是不重要的。如一個屬性的取值與給定語境是無關。
獲取這些信息的代價太大。
系統實時性能要求較高。即要求得到這些信息前迅速做出判斷或決策。
對缺失值的處理要具體問題具體分析,為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著數據缺失,缺失本身是包含信息的,所以需要根據不同應用場景下缺失值可能包含的信息進行合理填充。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:
「年收入」:商品推薦場景下填充平均值,借貸額度戚爛場景下填充最小值;
「行為時間點」:填充眾數;
「價格」:商品推薦場景下填充最小值,商品匹配場景下填充平均值;
「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值;
「駕齡」:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理;
」本科畢業時間」:沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理;
「婚姻狀態」:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。
缺失的類型
在對缺失數據進行處理前,了解數據缺失的機制和形式是十分必要的。將數據集中不含缺失值的變數稱為完全變數,數據集中含有缺失值的變數稱為不完全變數。從缺失的分布來將缺失可以分為完全隨機缺失,隨機缺失和完全非隨機缺失。
完全隨機缺失(missing completely at random,MCAR):指的是數據的缺失是完全隨機的,不依賴於任何不完全變數或完全變數,不影響樣本的無偏性。如家庭地址缺失。
隨機缺失(missing at random,MAR):指的是數據的缺失不是完全隨機的,即該類數據的缺失依賴於其他完全變數。例如財務數據缺失情況與企業的大小有關。
非隨機缺失(missing not at random,MNAR):指的是數據的缺失與不完全變數自身的取值有關。如高收入人群的不原意提供家庭收入。
對於隨機缺失和非隨機缺失,刪除記錄是不合適的,隨機缺失可以通過已知變數對缺失值進行估計;而非隨機缺失還沒有很好的解決辦法。
說明:對於分類問題,可以分析缺失的樣本中,類別之間的比例和整體數據集中,類別的比例
缺失值處理的必要性
數據缺失在許多研究領域都是一個復雜的問題。對數據挖掘來說,預設值的存在,造成了以下影響:
系統丟失了大量的有用信息;
系統中所表現出的不確定性更加顯著,系統中蘊涵的確定性成分更難把握;
包含空值的數據會使挖掘過程陷入混亂,導致不可靠的輸出。
數據挖掘演算法本身更致力於避免數據過分擬合所建的模型,這一特性使得它難以通過自身的演算法去很好地處理不完整數據。因此,預設值需要通過專門的方法進行推導、填充等,以減少數據挖掘演算法與實際應用之間的差距。
缺失值處理方法的分析與比較
處理不完整數據集的方法主要有三大類:刪除元組、數據補齊、不處理。
刪除元組
也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。這種方法簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與初始數據集的數據量相比非常小的情況下非常有效,類標號缺失時通常使用該方法。
然而,這種方法卻有很大的局限性。它以減少歷史數據來換取信息的完備,會丟棄大量隱藏在這些對象中的信息。在初始數據集包含的對象很少的情況下,刪除少量對象足以嚴重影響信息的客觀性和結果的正確性;因此,當缺失數據所佔比例較大,特別當遺漏數據非隨機分布時,這種方法可能導致數據發生偏離,從而引出錯誤的結論。
說明:刪除元組,或者直接刪除該列特徵,有時候會導致性能下降。
數據補齊
這類方法是用一定的值去填充空值,從而使信息表完備化。通常基於統計學原理,根據初始數據集中其餘對象取值的分布情況來對一個缺失值進行填充。數據挖掘中常用的有以下幾種補齊方法:
人工填寫(filling manually)
由於最了解數據的還是用戶自己,因此這個方法產生數據偏離最小,可能是填充效果最好的一種。然而一般來說,該方法很費時,當數據規模很大、空值很多的時候,該方法是不可行的。
特殊值填充(Treating Missing Attribute values as Special values)
將空值作為一種特殊的屬性值來處理,它不同於其他的任何屬性值。如所有的空值都用「unknown」填充。這樣將形成另一個有趣的概念,可能導致嚴重的數據偏離,一般不推薦使用。
平均值填充(Mean/Mode Completer)
將初始數據集中的屬性分為數值屬性和非數值屬性來分別進行處理。
如果空值是數值型的,就根據該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;
如果空值是非數值型的,就根據統計學中的眾數原理,用該屬性在其他所有對象的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。與其相似的另一種方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,用於求平均的值並不是從數據集的所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。
這兩種數據的補齊方法,其基本的出發點都是一樣的,以最大概率可能的取值來補充缺失的屬性值,只是在具體方法上有一點不同。與其他方法相比,它是用現存數據的多數信息來推測缺失值。
熱卡填充(Hot deck imputation,或就近補齊)
對於一個包含空值的對象,熱卡填充法在完整數據中找到一個與它最相似的對象,然後用這個相似對象的值來進行填充。不同的問題可能會選用不同的標准來對相似進行判定。該方法概念上很簡單,且利用了數據間的關系來進行空值估計。這個方法的缺點在於難以定義相似標准,主觀因素較多。
K最近距離鄰法(K-means clustering)
先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失數據。
使用所有可能的值填充(Assigning All Possible values of the Attribute)
用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補齊效果。但是,當數據量很大或者遺漏的屬性值較多時,其計算的代價很大,可能的測試方案很多。
組合完整化方法(Combinatorial Completer)
用空缺屬性值的所有可能的屬性取值來試,並從最終屬性的約簡結果中選擇最好的一個作為填補的屬性值。這是以約簡為目的的數據補齊方法,能夠得到好的約簡結果;但是,當數據量很大或者遺漏的屬性值較多時,其計算的代價很大。
回歸(Regression)
基於完整的數據集,建立回歸方程。對於包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。當變數不是線性相關時會導致有偏差的估計。
期望值最大化方法(Expectation maximization,EM)
EM演算法是一種在不完全數據情況下計算極大似然估計或者後驗分布的迭代演算法。在每一迭代循環過程中交替執行兩個步驟:E步(Excepctaion step,期望步),在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函數的條件期望;M步(Maximzation step,極大化步),用極大化對數似然函數以確定參數的值,並用於下步的迭代。演算法在E步和M步之間不斷迭代直至收斂,即兩次迭代之間的參數變化小於一個預先給定的閾值時結束。該方法可能會陷入局部極值,收斂速度也不是很快,並且計算很復雜。
多重填補(Multiple Imputation,MI)
多重填補方法分為三個步驟:
為每個空值產生一套可能的填補值,這些值反映了無響應模型的不確定性;每個值都被用來填補數據集中的缺失值,產生若干個完整數據集合。
每個填補數據集合都用針對完整數據集的統計方法進行統計分析。
對來自各個填補數據集的結果進行綜合,產生最終的統計推斷,這一推斷考慮到了由於數據填補而產生的不確定性。該方法將空缺值視為隨機樣本,這樣計算出來的統計推斷可能受到空缺值的不確定性的影響。該方法的計算也很復雜。
C4.5方法
通過尋找屬性間的關系來對遺失值填充。它尋找之間具有最大相關性的兩個屬性,其中沒有遺失值的一個稱為代理屬性,另一個稱為原始屬性,用代理屬性決定原始屬性中的遺失值。這種基於規則歸納的方法只能處理基數較小的名詞型屬性。
就幾種基於統計的方法而言,刪除元組法和平均值法差於熱卡填充法、期望值最大化方法和多重填充法;回歸是比較好的一種方法,但仍比不上hot deck和EM;EM缺少MI包含的不確定成分。值得注意的是,這些方法直接處理的是模型參數的估計而不是空缺值預測本身。它們合適於處理無監督學習的問題,而對有監督學習來說,情況就不盡相同了。譬如,你可以刪除包含空值的對象用完整的數據集來進行訓練,但預測時你卻不能忽略包含空值的對象。另外,C4.5和使用所有可能的值填充方法也有較好的補齊效果,人工填寫和特殊值填充則是一般不推薦使用的。
不處理
補齊處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實,在對不完備信息進行補齊處理的同時,我們或多或少地改變了原始的信息系統。而且,對空值不正確的填充往往將新的雜訊引入數據中,使挖掘任務產生錯誤的結果。因此,在許多情況下,我們還是希望在保持原始信息不發生變化的前提下對信息系統進行處理。
不處理缺失值,直接在包含空值的數據上進行數據挖掘的方法包括貝葉斯網路和人工神經網路等。
貝葉斯網路提供了一種自然的表示變數間因果信息的方法,用來發現數據間的潛在關系。在這個網路中,用節點表示變數,有向邊表示變數間的依賴關系。貝葉斯網路僅適合於對領域知識具有一定了解的情況,至少對變數間的依賴關系較清楚的情況。否則直接從數據中學習貝葉斯網的結構不但復雜性較高(隨著變數的增加,指數級增加),網路維護代價昂貴,而且它的估計參數較多,為系統帶來了高方差,影響了它的預測精度。
人工神經網路可以有效的對付缺失值,但人工神經網路在這方面的研究還有待進一步深入展開。
知乎上的一種方案:
4.把變數映射到高維空間。比如性別,有男、女、缺失三種情況,則映射成3個變數:是否男、是否女、是否缺失。連續型變數也可以這樣處理。比如Google、網路的CTR預估模型,預處理時會把所有變數都這樣處理,達到幾億維。這樣做的好處是完整保留了原始數據的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。
而且只有在樣本量非常大的時候效果才好,否則會因為過於稀疏,效果很差。
總結
大多數數據挖掘系統都是在數據挖掘之前的數據預處理階段採用第一、第二類方法來對空缺數據進行處理。並不存在一種處理空值的方法可以適合於任何問題。無論哪種方式填充,都無法避免主觀因素對原系統的影響,並且在空值過多的情形下將系統完備化是不可行的。從理論上來說,貝葉斯考慮了一切,但是只有當數據集較小或滿足某些條件(如多元正態分布)時完全貝葉斯分析才是可行的。而現階段人工神經網路方法在數據挖掘中的應用仍很有限。值得一提的是,採用不精確信息處理數據的不完備性已得到了廣泛的研究。不完備數據的表達方法所依據的理論主要有可信度理論、概率論、模糊集合論、可能性理論,D-S的證據理論等。

閱讀全文

與缺失客戶性別數據有什麼影響相關的資料

熱點內容
分盤數據刪除怎麼恢復 瀏覽:132
iphone備份路由器設置密碼 瀏覽:175
自學考研學習網站哪個好 瀏覽:977
壓縮exl文件中的圖片 瀏覽:412
廣州白雲機場無線網路 瀏覽:968
小米三數據流量怎麼打開 瀏覽:918
文件被鎖定怎麼辦 瀏覽:600
下表由雇員資料庫的訓練數據組成 瀏覽:784
列表文件存儲路徑 瀏覽:540
qq游戲大廳自動出語音 瀏覽:598
編程只是興趣怎麼辦 瀏覽:223
榮耀6plus電信版本 瀏覽:584
能打開word文件但桌面上找不到 瀏覽:366
2020十大網路紅歌有哪些 瀏覽:843
手機系統空間文件夾在哪裡設置快捷鍵 瀏覽:309
通信網路中的b8什麼意思 瀏覽:715
桌面文件標題 瀏覽:228
優淘集市有什麼app 瀏覽:747
找不到收藏文件 瀏覽:711
戰狼2在什麼網站 瀏覽:785

友情鏈接