A. 大數據與熵 臨界分析
大數據與熵:臨界分析
大數據的踐行者們不僅在思維上進行了轉變,在數據處理上同樣採取「大數據」的方法:分析全體而不是樣本,不追求精確性,「知其然,不知其所以然」(註:第三句是筆者歸納,原文意思是只要知道「是什麼」,不必知道「為什麼」,或只問相關性,不問因果關系)。同時宣布傳統的抽樣方法已經過時,不能適應當今互聯網信息社會的要求。
上述斷言過於武斷。如果斷言的目的是為了強調面對信息爆炸,人們必須不斷地尋找新的方法,包括「大數據方法」,來分析和處理數據,那麼如何誇大和渲染,都是可以理解並接受的;但是,如果斷言的目的是為了勸導人們放棄傳統的抽樣理論,轉而皈依「大數據思維」,這就值得商榷。
縱觀科技史,人們對物體運動規律的研究,牛頓定律曾被認為絕對正確。但隨著科學家們對微觀粒子世界,高速運動(近似光速)物體的研究,牛頓定律不再適用,而代之以量子力學和相對論。但這並不意味著牛頓定律的死亡,在人們生活所及的物理社會里,仍然是牛頓定律起主導作用。
信息社會也是如此,信息的不斷膨脹、變化、繁雜使得傳統抽樣統計方法顯得力不從心,於是所謂的「大數據思維」出現了。但「大數據」究竟是要取代傳統方法,還只是傳統方法的補充,有待於進一步的觀察。
質疑:
對於「大數據思維」的三個轉變,可以提出三點質疑:首先,如果通過分析少量的樣本數據就可以得到事物的准確性質,是否還有必要花費成本去搜集全體數據?其次,如果能夠得到准確數據,還有必要刻意追求不準確嗎?最後,如果能夠了解到因果關系,會視而不見,只去分析相關嗎?
合理的解釋是:首先,如果通過分析少量的樣本數據無法得到事物的性質,人們不得不花費更多成本去搜集全體數據來分析。其次,如果得不到准確數據,人們不得不接受不那麼准確的、差強人意的數據來進行分析。最後,如果不能夠了解到因果關系,人們會退而求其次,以分析相關關系來了解事物。
基於上述解釋,大數據方法不應該是刻意為之,而應該是不得已而為之。換言之,大數據方法僅在傳統的抽樣統計方法不起作用的時候有其用武之地。這就像只有當物體的運動速度接近於光速時我們才用相對論取代牛頓定律。
當然,不可否認,在飛速發展的網路空間里,人們的研究對象,即數據,變得越來越龐大,越來越繁雜模糊,越來越非結構化,這一大趨勢使人們樂於接受大數據思維。舉個不太恰當的例子,當人們不能解釋許多自然現象時,更容易接受某種宗教的解釋。
在信息爆炸的今天,傳統的抽樣統計方法不僅不應該被拋棄,而應該通過一系列改進得到加強,成為高效、實時反映事物狀態的主要手段之一。同時,我們歡迎並樂意採用新的方法,比如如日中天的「大數據方法」以及可能的「模糊數據方法」等等。
至此,一個關鍵問題出現了:面對一個具體事物,如何確定應該用傳統方法還是大數據方法?當物理學家研究微觀粒子之間的作用力時,會採用量子力學;研究一個橋梁受力時,會採用牛頓力學。信息或數據專家們有這樣的理論或判別標准嗎?本文下一小節將對此展開討論。
分析:
首先,考察一般意義上的選取樣本大小的規則。
定理:設X1,X2…Xn為獨立同分布隨機變數,分布為p(x), x∈(x1,x2..xn),則一般抽樣樣本大小S為:
S = λ*2 ^H(X) …………………………(1)
其中:λ是常數,H(X)= -∑p(xi)*log
p(xi),即隨機變數X的熵。
例1:了解總體為N個人對某事物的看法,是或否兩個選擇,其熵約為1,(假設兩種回答人數基本相當),則在一定的置信度、置信區間的要求下(本文不做精確的抽樣理論推導,僅舉例定性說明,以下同),S隨著N的增加(比如到10萬)逐步趨向為一個常數;400,此時λ=200。 可以證明,當其它條件不變,隨著熵增加,S指數增加,λ保持不變。
換一個方式解釋λ。
定義1:λ是在一次抽樣中,「典型狀態」出現的期望值。
定義2:典型狀態指該狀態出現概率等於或近似等於相同熵值平均分布下各狀態出現概率的那個狀態。
舉例來說,X服從一個8狀態平均分布,其熵為3比特,其每個狀態都是「典型狀態」,其出現概率都是1/8。
如果X服從一個12個狀態的分布,其狀態分布概率為
p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型狀態是 x5, 出現概率為1/8.
基於上述規定,如果λ取1,H(X)=3,則樣本大小S =8,在一次抽樣中,典型狀態(出現概率1/8)出現次數的期望值為1,等於λ。但狀態出現是依概率的,盡管期望值為1,但觀察值也可能為0,2,3…,這樣的估計誤差過大。
如果λ取100,H(X)=3,則樣本大小S =800,在一次抽樣中,典型狀態出現的期望值為100,等於λ。其實際觀察值在極大概率下落在95-105之間,如果誤差可接受,取λ=100,否則,加大λ。
另外一個影響λ的因素是分層。將例1中的總體N分為高收入(20%),中等收入(50%),低收入(30%)3類人來調查對某事物看法。如果採用純隨機抽樣,要保證每層的分布得到准確的估計結果,就要使得最少個體的層能夠抽到足夠數量,因此λ要乘5(20%的倒數)。但事實上,人們更關心總體結果,兼顧分層的結果,因此,為了節約成本,實際的λ修正系數會小一些,比如取3,這時,樣本大小約為1200 。這時,不管總體是10萬人還是3億人,對1200人的樣本進行的調查結果可以在3%的誤差范圍內反映出實際情況。
通過以上分析可以看出,λ是一個100-1000之間的常數,具體數值取決於調查方希望在一次抽樣中得到多少個典型狀態(或分層的)的個體(期望值),並滿足誤差要求。在確定了λ之後,樣本的大小就只和系統熵相關,呈指數增長關系,即公式(1)。
採用傳統抽樣方法時,研究對象的隨機狀態和變化有限,或通過人為的分類使之變得有限,導致熵值很小,因此,使用較小的樣本就可以准確地估計總體。加之那時的取樣成本很高,調查方要花費很大精力設計抽樣方案,在不失精度的前提下,使得樣本規模盡量縮小。
互聯網時代的狀況恰恰相反,研究對象是互聯網的行為,獲取數據非常容易,因為數據已經產生,不管你用不用它,它就在那裡。而互聯網上許多研究對象的狀態無限多,也很難統計歸類(比如「長尾現象」),系統熵值很大,導致樣本規模巨大或根本無法確定規模。此時,採用總體分析,即大數據方法就具有優勢。當然,即使總體數據已經存在,對其整理和運算也相當消耗資源。一些情況下,採用抽樣的方法仍然是最佳的選擇。
現在,讓我們嘗試回答上節最後提出的問題:面對一個具體問題如何選取分析方法?
首先,考察研究對象所需的數據是否已經在應用中自動被收集,比如,用戶的線上購物行為。如果不是,比如線下購物,需要研究者設計方法去收集數據,此時,應該採用傳統抽樣方法。
其次,面對互聯網已經(或可以實時在線)獲得的海量數據,當研究對象熵值小於5,建議仍採用傳統抽樣方式,可以得到更高效率;當熵值介於5-15之間,總體分析或抽樣分析都可以考慮,視具體情況;熵值大於15,建議採用總體分析,即大數據方法。
上述建議仍然很抽象。在下一小節中,我們借用長尾理論的描述方法,將統計研究對象分為4種類型,分別討論適用的方法。
分類:
第一類:「無尾模型」。此時,研究對象的狀態明確且數量有限,出現概率最小的狀態仍然具有統計意義。如民主投票,狀態有贊成、反對、棄權3個狀態,或是有限個被選舉人的支持率;再如收視率調查,狀態有幾十或幾百個電視台。統計結果的描述方法通常是分布直方圖,即將狀態出現的頻次從高向低順序以柱狀圖的方式表示出來。連接直方圖的各個頂點,就得到總體的概率分布曲線。按照相同順序排列頻次累計數並將頂點相連,就得到所謂「帕累托曲線」。兩個曲線表現為凹函數,或二階導數恆為負值(借用連續的分析,實際上是離散的),在曲線尾部沒有出現變化。隨著狀態數的增多,「二八現象」會顯著,即少數狀態(比如20%)佔到了多數頻次(比如80%)。
第二類:「翹尾模型」。此時,研究對象的狀態較明確且數量較多,出現概率很小的狀態相對失去統計意義,在統計上把這些狀態統一歸類為「其它」狀態。絕大多數情況下,由於其它狀態是由許多狀態構成的,其出現概率的和高於排列在前的某些較小概率狀態的概率,因此,總體概率分布曲線及帕累托曲線在尾部會出現上翹,即所謂「翹尾模型」。為了保證統計效果,其它狀態總的概率一般不超過5%。這時,二八現象極為顯著,便於「ABC分析」和重點管理,因此翹尾模型在企業管理上應用極為廣泛。如質量管理(缺陷分析),庫存管理(零配件庫、商店、賣場,特別是實體書店,可與後面網路書店的長尾現象比較)等。
以上兩種模型運用傳統的抽樣方法均可以取得良好的統計結果。隨著對象狀態數量增加,並不存在明顯界限。以收視率調查為例:選擇3萬個調查樣本戶進行收視調查,當有二、三十個電視台台時,收視率最低的電視台也能得到顯著的觀察值,可以認為是無尾模型。當電視台數量超過100,許多收視率達不到0.3%的電視台在一次抽樣中就無法達到可以保證相對精度的觀測值,此時,既可以擴大樣本范圍來滿足精度要求,也可以將小於0.3%的狀態合並為「其它」,採用「翹尾模型」。
隨著三網融合的進展,絕大多數電視機將具有雙向功能,總體數據變得唾手可得,此時,抽樣方法仍然有效,它可以用來做實時的、頻繁的統計,而採用總體的大數據方法可以定時進行校正,畢竟處理幾萬個樣本比處理幾億條總體數據要迅速、便宜得多。
第三類:「長尾模型」。此時,研究對象的狀態不夠明確且數量很多,出現概率很小、相對失去統計意義的狀態眾多。但是,這些小概率狀態的全部或部分和佔到總體狀態的30%-40%,甚至更多。反映在概率分布或帕累托圖上就形成一個長長的尾巴(漸進於X軸或Y=1的直線)。如果採用翹尾模型,用抽樣的辦法,會使總體的30%-40%,甚至更多的狀態無法描述。從而必須採用全體數據即大數據的方法。
舉例來說:一個實體書店的貨架上有1000種書籍,經過統計,老闆會發現,賣得好的前200種書佔到其銷售額的80%以上,而賣得不好的後500種書的佔比甚至不到5%,統計上可以並為一類。這就是所謂「二八現象」,老闆採用抽樣統計的方法可以掌握占銷售額95%的書籍的分布情況。而一個網路書店的資料庫中可能列有20萬種書籍,其中熱賣的200種占銷售額的20%,前2000種共佔到40%。而餘下的19.8萬種書籍構成其餘60%的銷售額,但每種份額是如此之小,以至於無論如何擴大樣本,都不易被顯著地觀察到。在這種情況下只能採用大數據方法,否則,60%的銷售額都不知道從哪裡產生的統計還有什麼作用。
第四類:「全尾模型」。此時,研究對象的狀態很不明確、甚至未知,而數量極多甚至無限,正常情況下,無論如何選擇樣本都無法在統計意義上顯著地得到各個狀態的觀察值,一旦可以觀察到,說明出現異常。其分布曲線是無限接近且平行於X軸的直線。所以我們也可以稱之為「平尾」。
典型的例子如關鍵詞搜索,事先無法確定狀態,即系統事先不知道用戶要搜索什麼,且搜索的內容可能無限多,因此無法事先設計抽樣模型。採用分析全體的大數據方法,可以在出現異常時即使發現並加以分析。比如,某種疾病或葯物的名詞在某一地區的搜索量大增,就可以預測這一地區可能流行某種疾病。事實上,谷歌的大數據分析在這方面已經比傳統的流行病預測機制和機構做得更好、更有效率。
大數據方法被認為最適於做預警或預測某種人們事先不知道的狀態,而抽樣統計則一般是根據已知的狀態安排抽樣規則。
以上四種模型分析與上節基於熵的分析是一致的。其中無尾和翹尾模型的熵值分別為小於6、介於5-15之間;而長尾和全尾模型的熵值分別為大於15、趨於無窮。前二者多採用傳統抽樣分析,後二者只能採用大數據方法。更為重要的是,隨著量變引起質變,大數據方法會帶來更多、更新的概念、理論和技術。
B. 關於數據科學領域,你知道哪些科學趣事
科學大數據處理已經涉及到各個領域,天文學家也開始利用天文望遠鏡的大數據處理,來進行宇宙天體的計算和預測。
根據天文學家多年收集的數據,我們生活的銀河系,大約存在4000億顆恆星,開普勒天文望遠鏡在進行天文觀測的同時,進行了大數據分析,發現在銀河系中,類似太陽的黃矮星大約占據7%的比例,也就是280億顆。
但是一顆健康的恆星,並不意味著擁有適合生命生存的星球,於是天文學家開始觀測恆星系中的行星,在這些宜居恆星周圍,大約每檢測5顆恆星,就可以發現處在宜居帶、有可能存在生命的岩石行星,在整個銀河系,至少有60億顆類似地球的宜居行星。
總結:隨著各個科學領域的發展,不同科學領域已經開始逐漸交互融合,數據處理也可以和天文學交互,形成與眾不同的數據。
當所有科學理論都融合到一起時,我們或許就可以得到「大一統理論」!
C. 大數據的作用是什麼
在測量和測試計算機應用程序時,科學家和工程師每天都會收集大量的數據。例如,世界上最大的被稱為大型強子對撞機的粒子持有者對撞機每秒產生大約40太位元組的數據。波音公司的噴氣發動機每三十分鍾就會產生大約十兆兆位元組的數據。當一架Jumbo噴氣式飛機跨大西洋航行時,噴氣式飛機上的四台發動機可產生大約640太位元組的數據。如果將這種數據乘以每天平均2500次的航班,每天產生的數據量是驚人的;這就是所謂的大數據。
歡迎關注大數據周刊
從大量的數據中得出結論並獲得可操作的數據是一項艱巨的任務,大數據包含了這個問題。大數據帶來了新的數據處理方式。比如:深度的數據分析工具,數據集成工具,搜索工具,報告工具和維護工具,幫助處理大數據以從中獲取價值。
國際數據公司(IDC)對音樂,視頻文件和其他數據文件進行了分析。研究表明,系統產生的數據量每年翻一番。這是摩爾定律的一般概念。
摩爾定律如何改變?
當談到微處理器的力量時,可能會經歷摩爾定律的最後一個寬度。如果處理能力增加了,其他計算領域將不得不被檢查。從雲計算的能力來看,雲計算提供了可共享的資源,處理能力將提高創新能力,提高業務效率。
為了提高微處理器的處理能力,有一項新的技術正在研究和測試中。英特爾正在德克薩斯州測試光子學。 Photonics使用光線傳輸數據的速度更快,而且不會造成信號損失。這降低了電力的產生並使數據以光速傳播。這個實驗將有助於摩爾定律增加其過程流量和能力,重新開始一個新的循環。
摩爾定律之後,人工智慧又如何呢?
人工智慧已經成為下一個主流的技術範例,這使得人工智慧需要新的力量,因為摩爾定律和Dennard標度不夠強。摩爾定律指出,晶元特定區域的晶體管數量將在兩年後翻倍。在Dennard縮放中,保持晶體管所需的功率量正在縮小。
過去幾年來,英特爾已經減少了生產具有更密集和更小晶體管的新晶元的步伐。幾年前,小型晶體管效率的提高也停滯不前,這導致了功耗的問題。
AI如何處理更多的數據負載需要更強大的晶元。
科學家和大數據
大數據來源非常多。例如,在現實世界中收集的數據令人震驚地多樣化,並且負載巨大。 RF信號,振動,壓力,磁性,聲音,溫度,光線,電壓等的測量都以不同形式和高速度記錄。
摩爾定律在哪裡?
一個晶體管的物理長度和其他關鍵邏輯的重要維度將逐漸縮小到2028年,但3D概念已經占據了中心位置。與內存有關的行業已經接受了三維架構提升NAND快閃記憶體容量,緩解小型化的壓力。這並不意味著摩爾定律的結束。
結論
摩爾定律在處理大數據方面依然有效,但在使用3D架構方面更具經濟意義。人工智慧將在未來幾年帶來日益增長的處理能力需求,而晶元製造公司必須生產真正快速的處理器來處理工作量。
D. 現在學習大數據怎麼樣
結合自己這些年的工作經驗,要成為一個數據分析師需要兩方面的技能:
技術+業務回,前者後者3成7成,千萬不答要搞反了,有些人很注重技術,覺得技術是萬能的,痴迷於技術的鑽研卻忘記了最終的目的是要落地於業務
每個城市所存在的機構都不一樣,最好要找權威的機構效果更好些,不知道你在哪個城市有沒有積雲教育,從整體的管理,教學質量都不錯。