概率論與數理統計與大數據時代_統計學和大數據如何幫助我們認知世界

㈠大數據專業主要學什麼課程

大數據專業需要學:數學分析、高等代數、普通物理數學與信息科跡晌數學概論、數據結構、數據科學導論、程序設計導論、程序設計實踐、離散數學、概率與統計、演算法分析與設計、數據計算智能、資料庫系統概論、計算機系統基礎、並行體系結構與編程、非結構化大數據分析等。

大數據專業學什麼課程

數據科學與大數據技術專業是通過對基礎知識、理論及技術的研究，掌握學、統計、計算機等學科基礎知識，數據建模、高效分析與處理，統計學推斷的基本理論、基本方法和基本技能。具備良好的外語能力，培養出德、智、體、美、勞全面發展的技術型和全能型的優質人才。

數據科學與大數據技術的主要課程包括數學分析、高等代數、普通物理數學與信息科學概論、數據結構、數據科學導論、程序設計導論、程序設計實踐、離散數學、概率與統計、演算法分析與設計、數據計算智能、資料庫系統概論、計算機系統基礎、並行體系結構與編程、非結構化大數據姿首分析，部分高校的特色會有所差異。

通識類知識

通識類知識包括人文社會科學類、數學和自然科學類兩部分。人文社會科學類知識包括經濟、環境、法律、倫理等基本內容;數學和自然科學類知識包括高等工程數學、概率論與數理統計、離散結構、力學、電磁學、光學與現代物理的基本內容。

學科基礎知識

學科基礎知識被視為專業類基礎知識，培養學生計算思維、程序設計與實現、演算法分析與設計、系統能力等專業基本能力，能夠解決實際問題。建議教學內容覆蓋以下知識領域的核心內容:程序設計、數據結構、計算機組成操作系統、計算機網路、信息管理，包括核心概念、基本原理以及相關的基本技術和方法，並讓學生了解學科發展歷史和現狀。

專業知識

課程須覆蓋相應知識領域的核心內容，並培養學生將所學的知識運用於復雜系統的能力，能夠設計、實現、部署、運行謹盯或者維護基於計算原理的系統。數學分析、高等代數、普通物理數學與信息科學概論、數據結構、數據科學導論、程序設計導論、程序設計實踐。必修課:離散數學、概率與統計、演算法分析與設計、數據計算智能、資料庫系統概論、計算機系統基礎、並行體系結構與編程、非結構化大數據分析。

大數據的就業前景怎麼樣

大數據行業就業前景很好，學過大數據之後可以從事的工作很多，比如研發工程師、產品經理、人力資源、市場營銷、數據分析等，這些都是許多互聯網公司需要的職位，而且研發工程師的需求也很大，數據分析很少。

大數據人才就業前景好還體現在薪酬水平高，大數據是目前薪酬高的行業之一，目前大數據人才已成為市場的稀缺資源，發展前景好，薪酬水平也水漲船高。

㈡統計學和大數據如何幫助我們認知世界

你發現沒有，如果你在網上買過東西，商家就會根據你的網購經歷，給你推薦很多相關的商品。比方說你買了嬰兒奶粉，商家除了給你再推薦奶粉，還會給你推薦嬰兒車、嬰兒床。還有，你可能也聽過，很多互聯網公司都會基於後台收集到的各種數據，做出自己產品的「用戶畫像」，讓分散在整個互聯網上的用戶，從無數抽象的數據，變成一個或者幾個具象化的人物，然後再有目的地優化自己的產品。那你知道支撐大數據和演算法科技的，是哪一門學科呢？可能你也想到了，對，就是專門處理數據的統計學。

統計學是一門古老的學科，從人類文明出現以來，統計就已經存在。從最開始的結繩記事，到後來隨著各種政權的出現，為了方便管理，各國都會成立專門的機構負責統計國家信息，比如中國古代的戶部。漫長的人類歷史不僅是統計學的發展史，也是人類認知世界的歷史。為什麼這么說呢？接下來，我就從以下三個方面解釋這個問題。首先，我給你說說統計學的基本原理、這個學科的底層邏輯是什麼。接著，跟你說說，統計學作為一門應用科學，它的基本理論框架包括哪些內容，它又是如何幫助我們去處理復雜的數據，用已知去預測未知的。最後，我們再來看看大數據時代的統計革命。

一般意義上的統計學，包含了概率學與數理統計學兩個部分，都以概率論為基礎。聽著嚇人，其實除了一個嚇人的名字，這門學問並不高深，我們從小到大都和它打著交道。比如學生時代參加的大大小小的考試，本質上都是數學統計的過程。老師出的考卷就相當於一張調查問卷，通過選擇有限的知識點和題目，來考察我們對整個知識體系的掌握情況。用統計學的術語表達出來，這就是典型的抽樣調查，考試成績就是量化後的調查結果，而我們每個人的學習能力和努力程度，就會以分數的形式展現出來。

其實統計學作為一門應用科學，統計一直是從問題出發的，它的本質就是藉助一些數學工具來解決現實問題。一個統計學家所做的工作，就是通過分析數據來推斷事物的本質，預測它未來的發展。而分析數據的第一步，就是找出那些看似偶然發生的事件，背後隱藏著哪些必然性的統計規律。這里就要用到兩個概率學基本定理，第一個是大數定律，它是整個概率學的基礎。在生活中，想要做好財產管理和風險投資，都離不開它。

第二個是中心極限定理，這個定理解釋了，為什麼我們可以通過隨機抽樣，來調查整個群體的特點規律。了解這些概率學知識之後，我們就可以把目光放在統計學的基本方法上。

第三個重點我們就來說說，隨機抽樣，這是調查統計的基礎環節，我們可能大概知道它是怎麼回事，但是其實這個環節，經常容易出錯。那麼，對於比較復雜的問題，科學家又是如何開展分析研究的昵？

第四個重點我們就來著重了解，「回歸分析」這種數據分析方法。

第一個重點：大數定律

想像一下你在學生時代的某天，老師心情不好，一連在班級里做了10次單詞聽寫。對你來說，每次聽寫的成繢肯定是有浮動的，可能有一兩次得分比較高，一兩次不太理想。但聽寫了這么多次，應該比較能反映你的真實水平了。這就是「大數定律」的主要內涵，用數學術語來表達，那就是當試驗次數足夠多時，實驗結果的平均值會無限地接近一個數值，這個數值一般叫做「期望值」。它的意義在於，我們可以通過研究概率來看清風險，做出決定，尤其是在理財和投資的時候，體現得特別明顯。

比如常常有人幻想自己一夜暴富，那最有可能的方法就是，買彩票或者進賭場。其實博彩行業就是依靠概率理論來發財的，讓大家都覺得自己會是那個幸運兒。可如果按照每期獎金的數額除以彩票的發行量，每張彩票的實際價值都不到1分錢，但人們依然熱衷於花2元錢來交換1分錢。就算是某期彩票暴出大獎掏空了獎池，從長遠看，發行彩票也是穩賺不賠的。為什麼昵？根據「大數定律」，對於長期發行、銷量穩定的彩票，獎金總額的期望值是恆定的，發行機構只要保證彩票的銷售額大於獎金期望值，就肯定賺錢。賭場也是一樣，只要能吸引到足夠數量的賭客，不管幸運兒蠃走多少錢，賭場永遠是最後的蠃家。所以，一夜暴富的事發生在我們身上的概率微乎其微，沉溺其中的結果，就是讓賭場老闆和彩票發行機構大賺了一筆。

反過來，對於一些期望值比較高的投資，我們也要用到大數定律的知識。比如一個投資門檻是100萬的項目，成功率只有30%，但是預期回報達到了500%，這么誘人該不該投昵？這時候，如果你把注意力都放在了高回報率上就很危險。我們要注意，大數定律成立的前提是「試驗次數足夠多」。投資100萬可不是買2元錢的彩票，如果你是工薪階層，用來投資的100 萬元是你的全部資產，那你顯然沒有多次投資的資本。這時候如果你孤注一擲，有70%的概率會血本無歸。反過來，如果你是巴菲特，那這樣的項目肯定是來得越多越好，因為你投資的幾百個項目里肯定有一些會成功，平均來看一定會像開賭場一樣賺到大錢。所以，面對理財投資中的高期望，我們首先要考慮的因素就是風險傾向。根據大數定律，你的風險承受能力越強，意味著允許試驗的次數越多，也就越有可能賺到期望的投資回報。

生活中最常見的、依靠大數定律來賺錢的其實是保險行業。比如我們在網上購買電子產品的時候，網站經常會向我們推銷延長保修服務。比如一台1000元的列印機，多花50元可以延保1年。如果你掌握了大數定律，就很容易想到，廠家對這款列印機提供維修服務的預期成本，肯定少於50元，否則就要賠錢了。

但有些時候，這種錢還必須得花。大家都知道保險公司利潤很高，假設一種人身意外險的賠償額度是100萬，發生意外的概率是百萬分之一，那麼預期損失就是1元錢，如果你花10元錢來買，保險公司就能掙到10倍的利潤，基本和開賭場沒什麼區別。但你要知道，買這類保險的意義並不是為了省錢，而是當你遭受一些難以承受的巨大損失時，幫你渡過難關。因為人身意外的損失，是不能和一千元的列印機來比較的，這時保險更多的是一個規避風險的理性工具。

第二個重點：中心極限定理

這個定理是概率學首席定理，我們可以這么理解：假如你燒了一鍋湯，想知道味道怎麼樣，沒必要把湯都喝光，只要嘗一小勺就可以了，任意一勺湯的味道絕不會相差很遠。那中心極限定理的含義就是，任意一個群體樣本的平均值，都會圍繞在這個群體的整體平均值周圍。我們對一個基數龐大的群體做統計調查的時候，只要對其中的一部分樣本進行研究，得出的結論就能反映整個群體的特點，而且抽樣的數量越大，准確性越高。

因為這個定理的存在，我們開展調查統計就變得簡單方便了。如果我們掌握了某個群體的具體信息，就能推理出從這個群體中正確抽取的隨機樣本的情況。舉一個有趣的例子：假設有一個城市同時在舉辦馬拉松比賽和吃熱狗大賽，比賽前有一輛載滿外國馬拉松運動員的公交車不見了，結果警察找到了一輛載滿大胖子外國人的公交車。由於語言不通，那警察只能根據經驗來判斷。即使馬拉松選手裡面可能也有一兩個略重的，但是滿車都是胖子不大可能。所以利用中心極限定理不難推斷出，警察很可能找錯了車子。

當然這屬於比較極端的情況，如果換個場景條件，找到的兩輛車中，乘客有胖有瘦，該怎麼判斷呢？這時候我們可以對車中乘客的體重進行測量，計算他們體重分布的標准差，運用中心極限定理，我們仍然能判斷出哪輛車是我們要找的。這是因為：馬拉松運動員群體的體重標准差是明顯小於普通群體的，他們的體重分布更集中。這也是中心極限定理的另一種運用，那就是如果已知兩個樣本的基本特性，就能推理出這兩個樣本是不是來自同一個群體。

第三個重點：隨機抽樣

隨機抽樣，是我們收集數據的主要方法。比如開展問卷調查的時候，如果客戶數量龐大，根據前面說過的中心極限定理，只要在他們中間抽取一部分有代表性的樣本來填寫問卷，就能達到目的。這個選取代表性樣本的過程就是隨機抽樣。

所以，隨機抽樣只是看似簡單，它的關鍵在於「隨機」這兩個字。要做到隨機，必須保證每個對象被抽到的概率完全相等，這樣抽樣後的樣本才能代表整個對象群體。比方說我們想知道100個玩具球中有多少紅色球、多少藍色球，只要把它們放進一個袋子里，然後隨機取出30個，就能得到基本准確的顏色比例。但問題是，我們開展調查時的對象是人，我們所關心的人口組成遠遠要比一袋子玩具球要復雜。如果不能保證相關人口中的每個人，被選為樣本的概率都相同，作者就認為這樣的抽樣結果存在「偏見」，這樣有偏見的樣本往往會得出荒謬的結論。

第四個重點：回歸分析

在說回歸分析之前，先來講講高爾頓發現的「回歸現象」——從遺傳學的角度來看，父母高的話，孩子也應該高，父母矮的話，孩子也應該矮呀。但是實際測量的數據卻不是這樣的。整體來看，孩子的身高其實都有一個逐步向人類平均身高靠攏的現象，高爾頓將這種數據向總體平均值靠攏的現象稱為「均值回歸」。

其實，高爾頓提出的概念，已經和成熟的統計思想非常接近了。但是首次將這種思想用數學公式表達出來的是他的學生卡爾.皮爾遜。

1895年，皮爾遜第一次在科學史上明確地闡述了實驗數值的隨機性，而所有出現的觀測值都可能符合某種規律性。科學的目的，就是找到幾個指標來描述這種規律性。他告訴大家都別為自己的實驗誤差糾結了，世界本來就是測不準的，每次的實驗結果都是隨機出現的，至於怎麼出現有它自己的規律，科學研究的主要工作不在於研究具體數據，而在於發現這種規律性。這種思想對當時的科學界來說，就像是一枚重磅炸彈。

可以說，皮爾遜的統計思想顛覆了當時人們認知世界的方式，人們開始認識到，萬事萬物不見得一定是因果關系，而是相互作用相互影響的相關關系，人們也逐漸接受了實驗結果的隨機性。這種事物間的相關性以及數據分布的隨機性，也得到了科學界的普遍認可，直到現在已經深深地滲入到我們的曰常生活中了。

皮爾遜的思想雖然具有顛覆性，但由於他自己的數學能力有限，有些概念和數學推導並不成熟，後來皮爾遜的朋友戈賽特和費希爾重新定義了一些統計概念，糾正了皮爾遜的一些錯誤。尤其是費希爾，他在一般性的統計方法和統計思想上，提出了實驗設計方法、方差分析法、回歸分析方法等。

其中回歸分析方法，是一種非常強大的統計學方法，專門用來分析那些影響因素很多的復雜問題。簡單來說，回歸分析就是通過一個已知的現象，來找到未知的原因。它可以通過嚴格的數學分析，復原出每種原因對結果的貢獻比例。

舉個例子，倫敦大學公共衛生學院曾經主持過一項著名的「白廳」研究。醫學家們發現，英國政府里低級別的公務員，患上心臟病的概率比他們的上司更高，白廳研究就是要找出這背後的真實原因。這個研究顯然不能用隨機抽樣的方法實現，因為我們不可能把志願者強行分配到各個工作崗位工作幾年，然後再看哪些人因公殉職了。研究員只能在很長一段時間里，對數千名公務員進行詳細的數據採集，來比對各類導致心臟病的可能因素。

比如說，低階公務員的學歷普遍偏低，會不會是影響因素？煙民比例多呢？還是不能享受到高水平的醫療服務？或者是加班多，鍛煉時間少？這些都是導致心臟病高發的變數，那麼到底哪一個才具有決定性的影響呢？這么龐雜的數據里有太多錯綜復雜的因素，顯然會干擾研究員的判斷。這時候就要用到回歸分析這個工具，它的作用好比一個可以調節孔徑的篩子，能在綜合考慮其他變數效果不變的情況下，把其中一個變數的效果分離出來。

回歸分析的數學過程比較復雜，好在現在有了成熟的多元線性回歸方程模型可以套用。我們要做的，就是把多個變數的取樣結果代入回歸方程式，計算結果就會顯示出，我們關注的變數和心臟病發病率的線性關系。通過統計推斷，我們就能知道這個變數到底在多大程度上影響了發病率。實驗結果表明，造成心臟病高發的真正原因，是對工作缺乏控制力和話語權。而這類存在感較低的崗位，在低級別職位中更常見。現在，「低控制力」已經成了一個專有名詞，專指那些精神負擔重、決策水平低的工作。

事實上，當前科學界絕大多數的研究結論都是以回歸分析作為基礎的。尤其是回歸分析軟體的普及，讓建立模型和解析方程變得很簡單。但同時也要注意，電腦永遠不能代替人的工作，如果我們在進行回歸分析時遺漏了變數，或者忽視反面因素，回歸分析就會得出危險的結論。

比如，上世紀90年代，哈佛大學醫學院對12萬名女性開展了縱向調查，經過嚴格的回歸分析證實，定期攝入雌激素的女性，突發心臟病的概率只有其他女性的1/3。醫學機構支持了這個觀點，醫院開始定期為中老年婦女進行雌激素的補充治療。然而後來的臨床試驗發現，補充雌激素的副作用會導致乳腺癌和血栓病高發，這是科學家們沒有考慮到的重大疏漏。最終，因為接受雌激素治療而死亡的女性患者達到上萬人。你看，一旦出現變數遺漏，錯誤的回歸分析結果甚至會殺人。

以上就是我們要說的第一部分的內容，這部分的重點是統計學的基本原理與相關概念。統計學就是基於問題，收集數據、分析數據、解讀數據的過程。它的產生起源於我們探索世界的需要。第二部分我們來講講統計學的基本框架。

我們所處的世界包含各種各樣的事物，我們想全部觀察一遍幾乎是不可能的，人口普查不可能年年搞，了解新葯療效也不可能讓每個病人都試一下，但是觀察一部分我們還是可以做到的。在統計學里，這個真實的世界或者我們想研究的事物，被稱為「總體」，而從總體找到一部分具有代表性的個體，就是找「樣本」，統計學就是幫助我們利用樣本的信息來推測總體情況的工具，也就是從局部到整體，從已知到未知的過程。

當我們使用統計學的時候，一般有兩種目的。要麼，是為了分析現有的樣本數據，要麼，是估計未知的總體情況。根據不同的目的，統計學可以劃分為兩大部分，一部分是描述統計，一部分是推論統計。

這兩個詞兒聽起來可能不太好理解，我來給你解釋一下。簡單說，描述統計其實就是處理樣本數據的過程，通過對雜亂無章的原始數據進行整理，讓這些數據能夠直觀簡練地呈現出來，並作為我們認識事物的客觀依據；而推論統計則帶有猜測的成分，是從樣本到總體的過程，通過整理出來的樣本數據信息來估計總體、預測未來。可以說，這兩種統計方法的功能不一樣，描述統計針對的是已知的樣本，是當下；推論統計針對的是未知的總體，是未來。

大面兒上了解了它們的區別，我再分別給你舉例說明一下。

我們先說「描述統計」。其實描述統計理解起來並不復雜，它無非從幾個角度來描述數據，告訴我們數據整體處於什麼樣的水平，數據內部分布是比較平均還是參差不齊，在某個具體的行業或領域內跟其他數據橫向相比處於什麼樣的水平，或者從歷史的角度縱向來看又處於怎樣的水平。實際工作中當我們分析某個企業的薪酬水平、某國的GDP數據時，基本就是從這些維度思考的。

描述統計雖然是一種處理數據的方法，但它作為一種思維方式同樣指導著我們的工作和生活。比如，我們有時會聽到「用戶畫像」這樣一個概念，是不是聽起來很高大上？但其實它本質上就是一種描述統計。數據團隊在製作「用戶畫像」的過程中，首先會根據需要選取關鍵的指標或者維度，然後收集各個維度的數據或相關信息，比如收入水平、教育水平、產品使用頻率等，這就是一個計算平均值的過程；最後將這些信息整理，抽象出一個用戶的信息全貌，給用戶貼標簽，這個過程就是把各個指標的平均值綜合起來然後用文字描述出來。當然具體的操作要比這些復雜得多，但其本質並沒有區別，只不過描述統計處理的是數據，而用戶畫像有可能處理的是文字而已。

了解了描述統計的含義和功能，我們再來說說「推論統計」。

前面我們提到，推論統計本質上就是用樣本信息推測總體情況，利用已知信息去估計未知的過程，這其中含有「猜」的成分，既然是「猜」就必然存在如何判斷猜得准不準的問題。因此在統計教材中，這部分章節涉及大量的統計方法和計算公式，還有復雜的邏輯推理過程，讓很多人頭痛不已。然而無論是使用什麼分析方法，本質上都不外乎是這么兩種思路，那就是「參數估計」和「假設檢驗」。

所謂的「參數估計」，就是直接從樣本出發，利用樣本計算出的數據來估計總體情況，它又分為點估計和區間估計兩種，簡單來講就是你在估計的時候用的是一個具體的數值還是一個數值范圍。現實生活中，其實我們每天都在「被估計」，每當你剛瀏覽完某個產品的信息，緊接著平台就會給你推薦一大堆相關產品。但細心的話，你可能會發現雖然買的是同樣的東西，但不同的平台隨後給你推薦的產品卻不太一樣。這是因為，他們抓取的樣本數據或者具體演算法不同，但背後的統計思想並沒有差別，無外乎用現有的大多數人的樣本數據來預測你的偏好。

除了「參數估計」，推論統計里，還有一種重要的方法就是「假設檢驗」。簡單來說，「假設檢驗」就是從總體出發，先對總體情況提出一個假設，稱之為「零假設」。然後通過實驗收集數據，將收集到的數據跟這個零假設進行比較，看看之前的差異大不大，大到什麼程度才能認為實驗方法是有效的。其實「假設檢驗」的思路跟我們生活中的目標管理很像，先定目標，執行完後看看目標是否達成。這個分析方法，在學術研究領域，是非常常見的。當然科學家們做的「假設檢驗」要比這復雜嚴謹得多，但基本思路就是這么簡單。

現在假設檢驗的思想已經滲透到了現代科學教育中，並成為科學家和工程師的常規思考方式，他們在進行科學研究、發表科學論文的時候，基本都會用到這種思路。通常「零假設」都是一些通過多次驗證的共識性的結論，想要推翻它可不容易，而科學研究就是一步一步地、小心翼翼地在試圖推翻「零假設」的過程。最後，我們來講講大數據時代的統計革命。

到了互聯網時代，大數據技術的發展讓我們能夠很容易獲得整體的數據，統計學這個從樣本來估計整體的學科，還有那麼大的價值嗎？統計學是通過"概率"和「相關」來認識世界的，但誰能保證這是絕對正確的呢？概率這種看不見摸不著的東西真的存在嗎？我們認知世界的方式真的正確嗎？如果這一點沒法確認，那大數據會不會帶來另一場認知革命？我們認知世界的方式又會經歷怎樣的變革？

最後，我們的社會生活是建立在科學原理之上的，進入到大數據時代，轉變自己對周圍世界的認知方式非常重要。所以，掌握一些基本的統計學知識，刻意挑戰一下自己對世界的直觀感性認識，培養理性判斷的能力，會對我們很有幫助。我們未必都要把自己變成科學家，但要盡量讓自己具備科學家式的思維方式，這會讓我們在做關鍵判斷的時候游刃有餘。

㈢大數據與人工智慧專業學什麼

大數據專業課程：

面向對襲神象程序設計、集合與圖論、數字邏輯與部件設計、數據結構、代數結構與數理邏輯、計算機原理、資料庫引論、概率論與數理統計、計算機網路、操作系統、演算法設計與分析、計算機體系結構、軟體工程、編譯、計算機圖形學、軟體工敬閉程化開發、人工智慧、大規模分布式系統、神經網路與深度學習、數字信號處理、數據可視化、大規模分布式系統、文本數據管理與分析、統計學基礎等。

導航:首頁 > 網路數據 > 概率論與數理統計與大數據時代

概率論與數理統計與大數據時代

與概率論與數理統計與大數據時代相關的資料

友情鏈接