❶ 如何憑借python入行大數據,AI
python只是一種語言工具,除此之外還應該學些大數據或AI的知識。如果樂意,可以一起學習,本人也在學習。
❷ 女生學習大數據有哪些優勢
一、溝通上面的優勢
每個人都知道,學習大數據開發主要是為了服務客戶,雖然項目可以滿足客戶需求,但如何充分表達您項目的初衷是很多男性大數據工程師無法做到的。在這一點上,女生更有利。由於女生給人一種平易近人的感覺,她們會在與顧客的溝通中給顧客留下良好的印象,並且能夠很自然地減少與顧客的溝通障礙。
二、外界對女生工程師的期望值不高
雖然性別平等,但由於生理原因,女生大數據開發工程師的外部要求並不像男性大數據開發工程師的期望那麼高,因此女生大數據開發工程師的壓力相對較小。很多人認為這樣的區別是非常不公平的,但是需要提醒每個人,在這樣的環境中,女生將有可能創造良好的業績,證明自己的實力,公司將特別關注女生的發展並為女生提供更多空間。
三、女生數據師心細
大多數男性大數據開發工程師都存在粗心大意的毛病,所以經常在工作中遇到很多的問題。但是,女生工程師相對較少。這正是因為女生很謹慎和細心,女生工程師的細心經常會在開發過程中發現錯誤。因此,很多公司都很樂意招聘女生大數據開發工程師。
❸ 請簡述,在大數據時代,為什麼「我們樂於接受數據的紛繁復雜,而不再一味追求其
你好,你所提問的問題:
在大數據時代,為什麼
我們樂於接受數據的紛繁復雜版,而不再追求精確性。權
答案:
大數據時代,我們允許那些不精確的數據進入我們的視野,因為再大的個體偏差都會在大數據的恐怖基數下磨滅,成為折線圖上一個小小的齒形波動。
數量很大啊的話,小偏差就基本沒有太大的影響了。
不懂的話,歡迎追問。如果滿意,請點擊我的回答左下角「…」,這個點開,有個採納,
請採納下,謝謝。
❹ 大數據幫助零售商避免淪為「展示廳」
大數據幫助零售商避免淪為「展示廳」
對實體店零售商來說掙錢難度與日俱增。經過亞馬遜等電商二十多年對傳統零售型經濟模式的沖擊,智能手機的普及,數字化消費者的誕生以及次日交割⑴的繁榮,這一切都似乎使傳統零售商的未來變得撲朔迷離。
我用「似乎」一詞是經過深思熟慮的,因為我相信零售商將通過學會綜合運用大數據分析、多渠道數據和持續(自我)更新,重回昔日的繁榮。
這些高風險的議題是美國零售聯合會年會考慮的頭等大事。該會議於一月份在紐約召開,討論了大數據和消費者不斷變化的期望怎樣和雲計算、數據分析、社會化商業以及手機交叉,最終從根本上改變商業——這對於零售商而言意義重大。
就個人而言,我對零售商的未來感到興奮不已。零售商們通過應用高科技能促進對消費者的了解,並提供一切他們想要的。最終,整個業界就能實現將每個消費者區別對待的長期目標,而不是把他們聚集在分區混亂的市場里浪費時間。
作為數據專家,我很樂意見到大數據分析被零售商應用。這項技術是揭開人類消費行為奧秘和了解消費者一切需求的關鍵因素。
如今,零售商在許多時候都有大把機會去了解他們的顧客群體,以及那群人常去的市場。移動計算應用在用戶允許的情況下隨時都能讓商家獲取消費信息。忠誠計劃⑵能授權他們訪問消費者的歷史消費記錄。把這兩個因素結合起來,無論是實體店還是線上店鋪,你都能立刻與你的顧客建立聯系,滿足他們的需求。
大數據分析能輔助預測消費者的需求。通過研究個人消費習慣並將消費模式與他們身邊所發生的事情聯系起來,零售商就可以預測消費者的行為。受此啟發,零售商能更好地掌握消費者不斷變化的需求,他們不僅對此抱有希望,甚至嘗試改變消費者的消費行為。
我的公司也用大數據分析天氣對消費者個人消費行為的影響。我們將銷售數據和美國國家氣象局的數據結合分析,這樣零售商就能利用忠誠計劃的數據,以可預測的方式來確定消費者對天氣的反應。
社交媒體為零售商提供了一個促進對消費者了解的良機。商鋪能分析顧客們的個人賬務。通過匹配不同時間段的消費模式和消費者所屬人群,商家能調整他們的營銷策略——或許會使用數字化大屏幕對某些特定消費者顯示(不同的)商品名稱和價格。
最近,大型零售商紛紛制定線上商鋪作為實體商鋪的補充,但這兩種模式幾乎都沒什麼聯系。這將使零售商們錯失良機。通過多渠道市場技術整合實體和虛擬世界,大數據分析技術變得更加勢不可擋。
為了給消費者提供更加持久、方便、個性化和相關的體驗,協調所有消費者能接觸到的因素就變得尤為重要,包括:促銷、商鋪、網站、客戶服務中心、廣告、移動應用和社交網路互動。
事實上,這個途徑就是對抗「展示室現象⑶」挑戰的關鍵。
越來越多的消費者選擇在實體店體驗商品,然後用手機或者平板電腦在網上以一個更優惠的價格購買。我建議零售商不要視手機和平板為眼中釘,而將它們視為自己商鋪(業務)的擴展。
通過消費記錄,零售商能了解消費者在該商鋪的購買習慣,然後利用(線上)應用或(實體店)推銷員來吸引顧客。無論通過何種方式,他們留住顧客的幾率都將大大高於被網上打折商鋪搶走顧客的幾率。
我們正處於多渠道市場的早期,但我堅信通過利用大數據分析,移動計算和社交網路,零售商將找到無數成功留住顧客的方法。革命性的實驗是非常重要的。嘗試一些新東西;不論得失;通過學習;再次嘗試。
磚家們樂此不疲地宣稱實體店已死,但美國90%以上的零售交易還是以傳統的方式進行著,零售商們不斷自我更新。
我很榮幸與一批最有創造力的零售商合作,因為他們正在改變21世紀的購物體驗。他們明白必須不斷重塑自我,才能整合線上線下平台。最棒的零售商一定會成功。而最終的贏家還是消費者,他們的一切需求都將得到滿足,以一個實惠的價格。
譯註:
⑴one-day delivery(次日交割):合約的交割日期為下一個交易日時。
⑵loyalty programs(忠誠計劃):是公司基於客戶對公司特定產品或服務累積購買的基礎上對客戶所提供的激勵。
⑶phenomenon of 「showrooming」(展示室現象):電商的售價通常比實體店便宜,因此,消費者去實體店體驗產品,然後回家在電商網站上下單,這種現象已經司空見慣,被稱之為展示室現象。
❺ 大數據何以成為主義
大數據何以成為主義
數據者,有廣義與狹義之分。狹義的數據,就是數字或數值,如1、2、3、4、5……廣義的數據,則可概括為人類觀察、實驗、計算等的記錄。作為這些記錄的符號,或數字,或文字,或圖像,或音視頻,從上古時代的結繩記事、楔形文字、甲骨文,到古代乃至現代以竹簡、布帛、羊皮、紙張等為載體的圖文,直至現在以比特為單位的電子信息,可謂無所不包。
也許,正是由於互聯網技術工程師們習慣於把以電子信息方式存在的內容統稱為「數據」,於是「數據」一詞便由狹義的「數字」或「數值」演變為主要指向通用的廣義「數據」。
隨著計算機、互聯網、現代通信以及相關軟硬體技術的飛速發展,大數據和雲計算,如同一枚硬幣不可分離的兩面,成為我們這個時代的高頻詞。
大數據之大,還大在數據結構的有容乃大——它不再需要傳統的資料庫表格來整齊排列,幾乎可以無所不包地記錄、存儲和計算各種規則的結構化數據和不規則的非結構化數據,於是便有了逐步演變為一個數字化世界的可能。
如此龐大和復雜的數據,遠遠超出傳統計算機的處理能力,於是建立在互聯網基礎上的雲計算技術應運而生,承擔起存儲、傳輸、計算和應用大數據的重任。而正是大數據與雲計算的有效互動,打開了世界觀、方法論乃至價值觀的新視野。
在本書中,作者引用專業研究機構的統計,揭示了大數據的規模與速度:一方面,到2014年,全世界電子化數據已增至4.4ZB,即44萬億億位元組,如果將如此之巨的信息量存入只有7.5毫米厚的蘋果平板電腦,後者疊加起來的厚度可達地球與月球間距離的三分之二;另一方面,有史以來90%的數據量,都是在過去兩年的時間里產生的。
由此不難預期,一個電子化的、獨立於物質世界的「數字世界」,正在大數據和雲計算的互動中迅速構建,它雖然不可能窮盡物質世界全部存在,越來越逼近物質世界本體卻是不爭的事實。
尤為值得注意的是,許許多多以往被閑置的數據,由於一些精明商家的開發和利用,開始「變廢為寶」。一個耳熟能詳的案例,就是那個「尿片+啤酒」的商業發現與行動。世界最大零售商沃爾瑪通過大數據統計和分析發現,男性顧客在購買嬰兒尿片時,常常會順便買上幾瓶啤酒,於是推出將啤酒和尿片捆綁銷售的促銷方式,從而有效地提高了啤酒銷量。
凡此種種表明,如同宇宙大爆炸般飛速擴張的「數字世界」,不僅日益成為外在的客觀物質世界的「鏡像」,而且正在越來越多地包含對人類自身行為的追蹤和記錄,成為人類觀察和認識自我的「鏡子」。
拋開學術和技術層面的研討,大數據及其應用幾乎與生俱來就伴隨了喋喋不休的爭論。其中有兩個關鍵詞,一是「開放」,一是「保護」。如果說開放就是要打破壟斷分割,推動信息與數據互聯互通;變革體制機制,實現數據資源共有共享;鼓勵技術創新,促進大數據資源開發利用……最大限度地拓展數字世界「公共空間」,讓大數據和雲計算普惠大眾,造福人類;那麼保護則意味著要在數字世界為個人留下一方「私密領地」,或者為公權力畫上一道不能逾越的「紅線」——「風可進,雨可進,國王不能進」。
開放與保護,「公共空間」與「私密領地」,在這里構成既對立又統一的關系。對立在開放與保護「井水不犯河水」,統一在「公共空間」與「私密領地」共存於同一個數字世界,且雙方都以對方的存在為自身存在的證據,正所謂沒有「公」即沒有「私」,沒有「私」亦沒有「公」。
一言以蔽之,數字世界與現實世界理應奉行同樣的價值理念:該開放的一定要最大限度開放,該保護的必須嚴格加以保護。
本書向讀者展示了這樣一幅圖景:不管你自覺還是不自覺,樂意還是不樂意,大數據正以空前的速度和規模滲透到人類社會生活的方方面面,它在一定程度上已經並正在改變人們觀察、認識、思考乃至生存與發展的方式。特別是這後一方面的變化,或許就是「大數據」之所以成為「主義」的原因。
❻ 大數據時代 你的數據價值超乎想像
大數據時代:你的數據價值超乎想像
進入信息大爆發之後的年代,我們已經習慣了網路為自己帶來的便利,習慣了足不出戶便知天下事的豪情,習慣了動動手指便能購盡世間萬物的爽利,但所謂有利就有弊,我們需要付出的代價則是個人數據。其實通過等價交換的原則來看,數據顯然沒有普通人認為的毫無價值。
我們在網路中暢游,每時每刻都在產生著數據,而這些數據若單獨拿出來看,無法獲得有效的價值,但是聯動起來之後所帶來的附加價值,更會震驚所有人。
數據從未缺少 只是還未被記錄
從古至今,數據永遠伴隨在我們身邊,不過在過去,由於我們的數據沒有被有效的記錄與整理,因此造成了數據上的浪費。而在現代社會,由於用戶上網時的操作會被記錄,因此以前得不到保留的數據存續了,用戶的數據被集中起來進行歸納處理,價值便在歸納之後陡然顯現。
舉一個簡單的例子,當我們需要在網上點一份外賣時,商戶能夠很輕易獲得我們許多個人的信息,如送餐上門需要的家庭或者單位地址及電話;還能根據用戶之前的消費習慣進行菜品上的調整, 如加辣或者不加辣;根據用戶使用的移動支付渠道,可以了解用戶的信用度以及是否擁有其他貸款等更多信息。
從以上的例子就能看出,如果有需要,商家甚至能夠繼續追蹤下去,直至對用戶進行完全的畫像。這便是數據足夠以後形成了大數據,而這也是大數據的特點,高容量、多樣性、關聯性強、應用價值高等特點。
尤其在即將到來的物聯網時代,數據更會出現指數級增長,我們使用的所有智能設備都能完整的把我們所有行為通過數據記錄下來。數據的驟然增長,也將對我們自身進行更為精準的畫像。
數據的價值在於發現其背後的規律
簡單來說,通過收集這些數據進行分析之後,將會發現大數據將比我們自身更了解自己。這其實不難理解,我們自己也無法准確記住每時每刻自己在做何事,但通過智能設備卻能准確記錄下來,並且還會進行整理分析。
不要小看數據的價值,當數據量還稀少時,由於缺乏聯動性,因此價值還未顯現,但是當樣本足夠多時,將會從中發現出必然的規律,而這些規律即是價值的體現。但是當數據量還不夠多時,卻可能得出錯誤的結論。
用拋硬幣來舉例,在絕對公平且沒有外力干擾的情況下,當我們拋擲數量過少時,可能由於運氣緣故造成同一面連續多次出現,這時可能會錯誤的認為其中一面出現的幾率要比另一面更高。但是通過把拋擲的次數增加,會發現其實正反面出現的幾率均趨近於二分之一,隨著數據量的增多,這個數字也會與二分之一更加接近,這便是數據的價值,發掘其中的規律。
大數據時代下的精準營銷
我們個人數據同理,大數據時代下,通過收集到足夠多的數據進行分析後,可以挖掘其中背後潛藏的規律。而在發現出這些規律之後,除了能夠為用戶進行畫像,還能為企業提升業務,降低運營成本,進行精細化運營做出更多的貢獻。
比如通過收集某個客戶的數據,可以知道這位客戶喜歡運動、注重養生,特別喜歡在晚飯過後進行慢跑,甚至能夠知道具體的跑步時長以及路線。對於電商可以對該客戶推薦一些運動日用品,對於餐飲業則可以推薦一些適合養生的菜品,或者結合用戶其他更多的數據,可以精準的判斷其需求是什麼,這樣精準化運營將會使企業在節省大量成本的條件下創造更多價值。
當然,這樣一來就帶來了一個後果,那便是數據安全。個人數據也許將讓企業更好的了解用戶,讓用戶享受到更加優質的服務,但是當這些服務變成了騷擾,推薦變成了轟炸後,用戶就已經明白自己的數據被泄漏了。
數據安全既是財產安全
個人數據的泄露是如今網路最常見的網路犯罪,而數據泄露也會對個人造成嚴重的困擾,小到信息騷擾推送,大到信用卡的盜刷以及個人信息冒用,嚴重的甚至會造成刑事犯罪。
因此對於用戶而言,目前國內的個人數據安全形勢非常嚴峻,由於特殊的國情使然,造成許多應用程序必須讓客戶開放自己的個人隱私數據才可以使用。有數據顯示,目前手機APP越界獲取個人信息已成為網路詐騙的主要源頭,高達96.6%的安卓應用會獲取用戶手機隱私許可權,而iOS應用的這一數據也高達69.3%。
通過這些被跨界獲取的個人隱私數據,已經在全球都形成了一個龐大的「黑色產業」,年產值甚至高達上千億元。這些黑產從業者,利用大數據進行精確推送,誘導用戶消費,已經開始跨過了法律的邊界。這些黑產龐大的流動資金,也在側面證明了個人數據的價值,也希望用戶能夠明白自己的數據有多麼珍貴。
小結
前段時間網路李彥宏說過,中國消費者樂意用自己的隱私數據換取便利。但需要注意的是,也許目前消費者不得不用自己的隱私去換取方便,但隨著個人隱私數據重視程度的不斷提升,這種企業也將不得不做出改變。
用戶的數據是一處被掩埋的金礦,我們發現了,可以用它來獲得更好的服務,但不是以強迫的方式,畢竟數據的所有權在用戶本身。大數據時代,我們自身的數據更會價值連城。讓用戶明白自身數據的價值,讓用戶掌握自己的數據,讓用戶能夠與企業平等相待,也是大數據時代的真正意義所在。
❼ 大數據與熵 臨界分析
大數據與熵:臨界分析
大數據的踐行者們不僅在思維上進行了轉變,在數據處理上同樣採取「大數據」的方法:分析全體而不是樣本,不追求精確性,「知其然,不知其所以然」(註:第三句是筆者歸納,原文意思是只要知道「是什麼」,不必知道「為什麼」,或只問相關性,不問因果關系)。同時宣布傳統的抽樣方法已經過時,不能適應當今互聯網信息社會的要求。
上述斷言過於武斷。如果斷言的目的是為了強調面對信息爆炸,人們必須不斷地尋找新的方法,包括「大數據方法」,來分析和處理數據,那麼如何誇大和渲染,都是可以理解並接受的;但是,如果斷言的目的是為了勸導人們放棄傳統的抽樣理論,轉而皈依「大數據思維」,這就值得商榷。
縱觀科技史,人們對物體運動規律的研究,牛頓定律曾被認為絕對正確。但隨著科學家們對微觀粒子世界,高速運動(近似光速)物體的研究,牛頓定律不再適用,而代之以量子力學和相對論。但這並不意味著牛頓定律的死亡,在人們生活所及的物理社會里,仍然是牛頓定律起主導作用。
信息社會也是如此,信息的不斷膨脹、變化、繁雜使得傳統抽樣統計方法顯得力不從心,於是所謂的「大數據思維」出現了。但「大數據」究竟是要取代傳統方法,還只是傳統方法的補充,有待於進一步的觀察。
質疑:
對於「大數據思維」的三個轉變,可以提出三點質疑:首先,如果通過分析少量的樣本數據就可以得到事物的准確性質,是否還有必要花費成本去搜集全體數據?其次,如果能夠得到准確數據,還有必要刻意追求不準確嗎?最後,如果能夠了解到因果關系,會視而不見,只去分析相關嗎?
合理的解釋是:首先,如果通過分析少量的樣本數據無法得到事物的性質,人們不得不花費更多成本去搜集全體數據來分析。其次,如果得不到准確數據,人們不得不接受不那麼准確的、差強人意的數據來進行分析。最後,如果不能夠了解到因果關系,人們會退而求其次,以分析相關關系來了解事物。
基於上述解釋,大數據方法不應該是刻意為之,而應該是不得已而為之。換言之,大數據方法僅在傳統的抽樣統計方法不起作用的時候有其用武之地。這就像只有當物體的運動速度接近於光速時我們才用相對論取代牛頓定律。
當然,不可否認,在飛速發展的網路空間里,人們的研究對象,即數據,變得越來越龐大,越來越繁雜模糊,越來越非結構化,這一大趨勢使人們樂於接受大數據思維。舉個不太恰當的例子,當人們不能解釋許多自然現象時,更容易接受某種宗教的解釋。
在信息爆炸的今天,傳統的抽樣統計方法不僅不應該被拋棄,而應該通過一系列改進得到加強,成為高效、實時反映事物狀態的主要手段之一。同時,我們歡迎並樂意採用新的方法,比如如日中天的「大數據方法」以及可能的「模糊數據方法」等等。
至此,一個關鍵問題出現了:面對一個具體事物,如何確定應該用傳統方法還是大數據方法?當物理學家研究微觀粒子之間的作用力時,會採用量子力學;研究一個橋梁受力時,會採用牛頓力學。信息或數據專家們有這樣的理論或判別標准嗎?本文下一小節將對此展開討論。
分析:
首先,考察一般意義上的選取樣本大小的規則。
定理:設X1,X2…Xn為獨立同分布隨機變數,分布為p(x), x∈(x1,x2..xn),則一般抽樣樣本大小S為:
S = λ*2 ^H(X) …………………………(1)
其中:λ是常數,H(X)= -∑p(xi)*log
p(xi),即隨機變數X的熵。
例1:了解總體為N個人對某事物的看法,是或否兩個選擇,其熵約為1,(假設兩種回答人數基本相當),則在一定的置信度、置信區間的要求下(本文不做精確的抽樣理論推導,僅舉例定性說明,以下同),S隨著N的增加(比如到10萬)逐步趨向為一個常數;400,此時λ=200。 可以證明,當其它條件不變,隨著熵增加,S指數增加,λ保持不變。
換一個方式解釋λ。
定義1:λ是在一次抽樣中,「典型狀態」出現的期望值。
定義2:典型狀態指該狀態出現概率等於或近似等於相同熵值平均分布下各狀態出現概率的那個狀態。
舉例來說,X服從一個8狀態平均分布,其熵為3比特,其每個狀態都是「典型狀態」,其出現概率都是1/8。
如果X服從一個12個狀態的分布,其狀態分布概率為
p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型狀態是 x5, 出現概率為1/8.
基於上述規定,如果λ取1,H(X)=3,則樣本大小S =8,在一次抽樣中,典型狀態(出現概率1/8)出現次數的期望值為1,等於λ。但狀態出現是依概率的,盡管期望值為1,但觀察值也可能為0,2,3…,這樣的估計誤差過大。
如果λ取100,H(X)=3,則樣本大小S =800,在一次抽樣中,典型狀態出現的期望值為100,等於λ。其實際觀察值在極大概率下落在95-105之間,如果誤差可接受,取λ=100,否則,加大λ。
另外一個影響λ的因素是分層。將例1中的總體N分為高收入(20%),中等收入(50%),低收入(30%)3類人來調查對某事物看法。如果採用純隨機抽樣,要保證每層的分布得到准確的估計結果,就要使得最少個體的層能夠抽到足夠數量,因此λ要乘5(20%的倒數)。但事實上,人們更關心總體結果,兼顧分層的結果,因此,為了節約成本,實際的λ修正系數會小一些,比如取3,這時,樣本大小約為1200 。這時,不管總體是10萬人還是3億人,對1200人的樣本進行的調查結果可以在3%的誤差范圍內反映出實際情況。
通過以上分析可以看出,λ是一個100-1000之間的常數,具體數值取決於調查方希望在一次抽樣中得到多少個典型狀態(或分層的)的個體(期望值),並滿足誤差要求。在確定了λ之後,樣本的大小就只和系統熵相關,呈指數增長關系,即公式(1)。
採用傳統抽樣方法時,研究對象的隨機狀態和變化有限,或通過人為的分類使之變得有限,導致熵值很小,因此,使用較小的樣本就可以准確地估計總體。加之那時的取樣成本很高,調查方要花費很大精力設計抽樣方案,在不失精度的前提下,使得樣本規模盡量縮小。
互聯網時代的狀況恰恰相反,研究對象是互聯網的行為,獲取數據非常容易,因為數據已經產生,不管你用不用它,它就在那裡。而互聯網上許多研究對象的狀態無限多,也很難統計歸類(比如「長尾現象」),系統熵值很大,導致樣本規模巨大或根本無法確定規模。此時,採用總體分析,即大數據方法就具有優勢。當然,即使總體數據已經存在,對其整理和運算也相當消耗資源。一些情況下,採用抽樣的方法仍然是最佳的選擇。
現在,讓我們嘗試回答上節最後提出的問題:面對一個具體問題如何選取分析方法?
首先,考察研究對象所需的數據是否已經在應用中自動被收集,比如,用戶的線上購物行為。如果不是,比如線下購物,需要研究者設計方法去收集數據,此時,應該採用傳統抽樣方法。
其次,面對互聯網已經(或可以實時在線)獲得的海量數據,當研究對象熵值小於5,建議仍採用傳統抽樣方式,可以得到更高效率;當熵值介於5-15之間,總體分析或抽樣分析都可以考慮,視具體情況;熵值大於15,建議採用總體分析,即大數據方法。
上述建議仍然很抽象。在下一小節中,我們借用長尾理論的描述方法,將統計研究對象分為4種類型,分別討論適用的方法。
分類:
第一類:「無尾模型」。此時,研究對象的狀態明確且數量有限,出現概率最小的狀態仍然具有統計意義。如民主投票,狀態有贊成、反對、棄權3個狀態,或是有限個被選舉人的支持率;再如收視率調查,狀態有幾十或幾百個電視台。統計結果的描述方法通常是分布直方圖,即將狀態出現的頻次從高向低順序以柱狀圖的方式表示出來。連接直方圖的各個頂點,就得到總體的概率分布曲線。按照相同順序排列頻次累計數並將頂點相連,就得到所謂「帕累托曲線」。兩個曲線表現為凹函數,或二階導數恆為負值(借用連續的分析,實際上是離散的),在曲線尾部沒有出現變化。隨著狀態數的增多,「二八現象」會顯著,即少數狀態(比如20%)佔到了多數頻次(比如80%)。
第二類:「翹尾模型」。此時,研究對象的狀態較明確且數量較多,出現概率很小的狀態相對失去統計意義,在統計上把這些狀態統一歸類為「其它」狀態。絕大多數情況下,由於其它狀態是由許多狀態構成的,其出現概率的和高於排列在前的某些較小概率狀態的概率,因此,總體概率分布曲線及帕累托曲線在尾部會出現上翹,即所謂「翹尾模型」。為了保證統計效果,其它狀態總的概率一般不超過5%。這時,二八現象極為顯著,便於「ABC分析」和重點管理,因此翹尾模型在企業管理上應用極為廣泛。如質量管理(缺陷分析),庫存管理(零配件庫、商店、賣場,特別是實體書店,可與後面網路書店的長尾現象比較)等。
以上兩種模型運用傳統的抽樣方法均可以取得良好的統計結果。隨著對象狀態數量增加,並不存在明顯界限。以收視率調查為例:選擇3萬個調查樣本戶進行收視調查,當有二、三十個電視台台時,收視率最低的電視台也能得到顯著的觀察值,可以認為是無尾模型。當電視台數量超過100,許多收視率達不到0.3%的電視台在一次抽樣中就無法達到可以保證相對精度的觀測值,此時,既可以擴大樣本范圍來滿足精度要求,也可以將小於0.3%的狀態合並為「其它」,採用「翹尾模型」。
隨著三網融合的進展,絕大多數電視機將具有雙向功能,總體數據變得唾手可得,此時,抽樣方法仍然有效,它可以用來做實時的、頻繁的統計,而採用總體的大數據方法可以定時進行校正,畢竟處理幾萬個樣本比處理幾億條總體數據要迅速、便宜得多。
第三類:「長尾模型」。此時,研究對象的狀態不夠明確且數量很多,出現概率很小、相對失去統計意義的狀態眾多。但是,這些小概率狀態的全部或部分和佔到總體狀態的30%-40%,甚至更多。反映在概率分布或帕累托圖上就形成一個長長的尾巴(漸進於X軸或Y=1的直線)。如果採用翹尾模型,用抽樣的辦法,會使總體的30%-40%,甚至更多的狀態無法描述。從而必須採用全體數據即大數據的方法。
舉例來說:一個實體書店的貨架上有1000種書籍,經過統計,老闆會發現,賣得好的前200種書佔到其銷售額的80%以上,而賣得不好的後500種書的佔比甚至不到5%,統計上可以並為一類。這就是所謂「二八現象」,老闆採用抽樣統計的方法可以掌握占銷售額95%的書籍的分布情況。而一個網路書店的資料庫中可能列有20萬種書籍,其中熱賣的200種占銷售額的20%,前2000種共佔到40%。而餘下的19.8萬種書籍構成其餘60%的銷售額,但每種份額是如此之小,以至於無論如何擴大樣本,都不易被顯著地觀察到。在這種情況下只能採用大數據方法,否則,60%的銷售額都不知道從哪裡產生的統計還有什麼作用。
第四類:「全尾模型」。此時,研究對象的狀態很不明確、甚至未知,而數量極多甚至無限,正常情況下,無論如何選擇樣本都無法在統計意義上顯著地得到各個狀態的觀察值,一旦可以觀察到,說明出現異常。其分布曲線是無限接近且平行於X軸的直線。所以我們也可以稱之為「平尾」。
典型的例子如關鍵詞搜索,事先無法確定狀態,即系統事先不知道用戶要搜索什麼,且搜索的內容可能無限多,因此無法事先設計抽樣模型。採用分析全體的大數據方法,可以在出現異常時即使發現並加以分析。比如,某種疾病或葯物的名詞在某一地區的搜索量大增,就可以預測這一地區可能流行某種疾病。事實上,谷歌的大數據分析在這方面已經比傳統的流行病預測機制和機構做得更好、更有效率。
大數據方法被認為最適於做預警或預測某種人們事先不知道的狀態,而抽樣統計則一般是根據已知的狀態安排抽樣規則。
以上四種模型分析與上節基於熵的分析是一致的。其中無尾和翹尾模型的熵值分別為小於6、介於5-15之間;而長尾和全尾模型的熵值分別為大於15、趨於無窮。前二者多採用傳統抽樣分析,後二者只能採用大數據方法。更為重要的是,隨著量變引起質變,大數據方法會帶來更多、更新的概念、理論和技術。
❽ 如何利用大數據及現代教育技術,輔助教師教學
「興趣是學習之母」,沒有興趣是學不好的。因為有興趣,學生就會產生積極的情緒;為滿足好奇心,學生就要看、要聽、要想、要問,思維也被激活。教師精心設計教學,就是要激發學生學習的興趣,並在成功的體驗中使學生的興趣收到保護和激勵。教師要善於通過各種手段,找准教學的切入口,誘發學生的求知慾。