Ⅰ 為什麼說統計科學/數據科學是文化怎麼理解統計大數據文化
中國統計學以及自然科學、社會科學的興衰,與儒家學說關系是至為密切的。
統計科學數據科學和統計大數據歷史淵源長與中國的傳統文化密不可分,至此我們可將其認定為一種文化。
大數據產生的背景隨著科學技術的進步與發展,網路時代的開始,信息化也在加速發展,高度信息化已經成為21世紀人類社會的重要特點之一。社會的高度信息化,數據量的產生也正在爆發式增長,海量的數據充斥在我們的生活、工作中,大數據也隨之誕生並快速的發展。大數據在我們的日常生活和工作中逐漸變得流行起來,雲計算、社交網路、物聯網等都要和大數據掛鉤,不斷的使我們的生活、工作以及思維發生著大變革。大數據引起了人們的熱切關注,成為一個熱門話題,也成為世界各國、各個行業的關注話題。2大數據相關概念2.1大數據的定義維基網路的定義:大數據Bigdata,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的東西。互聯網數據中心的定義:滿足4V[種類(Variety),流量(Velocity),容量(Volume),價值(Value)],即種類多,流量大,容量大,價值高的數據成為大數據。麥肯錫的定義:大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析能力的數據集。該定義有兩個方面的內涵:一是符合大數據標準的數據集大小是變化的,會隨著時間推移、技術進步而增長;二是不同部門符合大數據標準的數據集。
Ⅱ 智能時代讀後感:淺談機械思維與大數據思維
花了大概2天的時間把吳軍老師的《智能時代》過了一遍,干貨很多,收獲也挺多的,我認為最重要的是第三章關於思維的革命,整理思考下作為一篇文章分享給大家。
記得還是高中的哲學課,學過關於機械思維的一些內容,具體記得不是太清楚了,只記得是呆板的,像機械一樣不懂變通的思維方式。看了吳軍老師的書才知道機械思維曾經也是一種很先進的思維方式,包括牛頓的關於運動學的三大定律,包括愛因斯坦的相對論,可能說都是機械思維的結果,是不是又點突破三觀。
機械思維的很大程度是從古希臘發源的,歐洲只所以能夠在科學上領先,在於古希臘建立起來的思辨思想和邏輯推理能力,而我們中國除了在春秋時候的百家爭鳴有過相關的思維方式,後面主要思想被儒家和道家文化做主導,儒家思想講究中庸,中不偏,庸不易,說話做事講究中和,講究平衡,講究以人為本,而思辨卻是一種極端的思考方式,講追求至理;道家思想追求道法自然,天人合一,講究陰陽平衡,陰平陽秘;追求的道是道可道,非常道,名可名非常名,意思是常道是不可用言語來表達的,總結來說在我看來,我們中國先人很早就發現世界是很復雜的,儒家是從仁的角度,更關心人,道更關心的人天的和諧,以天地為師,法天,法地,法自然。
吳老師關於機械思維在書中概況如下:
在我看來,大部分人可能都是這樣的思維模式吧,還有種壓根沒有什麼思維模式,就是盲目瞎干,這樣還不如機械思維來的好。機械思維核心思想可概況為認為世界是可以完全認識的,是由一定規律的,世間萬物存在著一定的因果關系,而規律的尋找需要「大膽假設,小心求證」,這種現在也被認為是個科學的態度,是科學的思維方式。包括愛因斯坦的質能方程在內的近代很多成就都是在機械思維的模式運作下完成的。
機械思維認為世界是確定的,可以認知的這積極的一面,也有其局限性,即否定不確定性和不可知性,愛因斯坦有句名言:「上帝不擲色子」,這是愛因斯坦和量子力學的發明人波爾等人爭論時候所講的話,今天我們知道這場辯論波爾是正確的,愛因斯坦錯了,上帝也擲色子。
從股市的專家預測,到天氣預報,再到簡單的擲色子,有很多預測是不準確的。不確定性來源於哪裡:
一是:我們了解的越細致,發現影響世界的變數越多,無法通過簡單的辦法或公式來算出結果,如果我們窮盡所有影響事務的變數,當然也是可以預測的,但是現實中是辦不到的,而且公式寫出來也會非常復雜,沒辦法用簡單的公式描述清楚;
二是: 我們主觀思維的影響,由於受到思維方式的限制,我們對世界的認識是不準確的,這也阻礙了我們認識世界。
三是: 這個世界客觀上來說本來就是復雜的,比如我們知道電子圍繞原子核做飛速旋轉,但是電子在特定時刻的位置和速度是不確定的,這是原子本身的特性,類似於量子裡面的測不準原理,我們測量活動本身影響了測量結果。這又點類似我們在股市按照特定指標購買股票,如果大家都按照這個指標來購買股票,那這些購買股票的行為本身又影響了股票本身的價格和走勢了。
世界是不確定的,但是又不是不可以認識的,同樣是電子繞原子核運動,雖然我們不知道電子的具體位置和速度,但是可以估計電子出現的位置和概率。所以世界上很多難以用具體的公式描述的事情,通常可以用概率的模型來描述。天才香農將世界的不確定性和信息聯系起來,形成了資訊理論,不僅是通信理論而且是人們認識世界的新思路。
資訊理論首先解決了信息多少的問題,簡單的兩句話,比如「太陽明天從東方升起」 「xxx明星和xxx明星已經秘密登記結婚了」,這兩句話哪句話信息量大,從我們直觀思維來看,太陽明天從東方升起,這幾乎是個確定的事情,所以相當於一句廢話,信息含量少;而後一句的概率是比較低的,所以信息含量大。香農博士將信息和事件確定不確定聯系起來,同時引入了熵的概念,熵原是熱力學裡面的概念,兩個容器用一個擋板隔開,兩邊的氣體,一邊溫度高,一邊溫度低,處於有序狀態,如果把擋板拿掉,那麼氣體狀態就會越來越無序,從宏觀上趨於恆溫。這種氣體從原來的有序狀態逐步變成無序狀態的過程,熵是一直在增加的,也就是說有序的確定的熵低,越是混亂的熵越高,如果要熵變低或讓事物變的有序,必須有外力的作用。
還是有點抽象,舉個簡單的例子,如果你的房間不整理,以後會越來越亂,這時候熵是越來越大的,想找一個東西可能找了半天都找不到,為什麼那,因為亂導致了不確定性增加,怎麼處理,就是整理,整理了房間,有序度提高了,熵減少了。
香農博士就是利用熵度量信息量的大小,信息量越大,越不確定,那麼熵就越大,如果想讓信息確定,就必須引入更多的信息,引入信息的多少,就看需要事件的不確定性大小。與機械思維相反,資訊理論是建立在不確定性的基礎上的。
如果你學過機器學習,那對決策樹演算法一定不陌生吧,沒學過也不好緊,先用一個例子簡單的說明,如何判斷一個西瓜是不是成熟的好西瓜?需要判斷瓜的花紋顏色的深淺,瓜蒂的粗細,還有瓜敲起來聲音如何,我們可以根據這些條件一步步判斷,每步選一個條件做判斷,最終根據多個條件判斷出瓜是否熟的概率,畫圖如下:
首先我們對一個瓜是不是熟瓜,這個信息是不確定的,如何確定那,我們引入了多個信息,瓜的花紋顏色,瓜蒂的粗細,而且判斷的條件的引入順序也是很重要的,比如我認為瓜的花紋顏色深淺很重要,這個信息量比較大,引入之後會讓瓜是不是熟的信息熵急速減少,這樣我們對信息的確定性越來越確定,決策樹就是利用這個原理來判斷的。這裡面的花紋顏色,瓜蒂粗細也不是隨便選擇的,要選擇的信息和瓜是否成熟具有相關性(資訊理論的說法),資訊理論中的互信息說明了相關性的大小。
資訊理論得出的重要原理就是,當我們要對未知的事件找一個概率模型的時候,這個模型應當滿足我們現有以解決看到的數據,但是對未知情況不做任何假設。這個就是最大熵原理,不同於以前的「大膽假設,小心論證」 ,不做主觀假設的前提是有足夠多的數據。
首先要了解大數據的三個特點:1)數據量要足夠大;2)數據的維數要足夠多;3)數據要是完備的,全覆蓋的,不能是抽樣的。
這個世界的本質是個不確定的世界,我們了解到的信息越多,越容易消除不確定性,隨著大數據的發展,很多人工智慧的問題得以解決是,因為我們的數據足夠大了。
數據量足夠大,我們就有足夠多的信息,相關的領域的不確定性減少的越多,那麼相關研究進展就越快;數據的維數越多,與我們要解決的問題的相關性匹配就越好,有了多維度信息,我們可以做交叉驗證,從而進一步減少信息的不確定性;而數據的完備性,防止了小概率事件的發生,是對事件發生的環境的全范圍覆蓋,因為技術的進步,數據的完備性收集得以稱為可能。
大數據強調的是相關性,而不是因果性,世界既然是不確定的,那麼有些規律我們是無法找到其因果關系的,但是不妨礙我們去尋找其相關性,比如在「電影租賃的網站上放零食廣告」,比如「在咖啡評論和銷售網站上,放信用卡廣告和房貸廣告」,這就是從大數據分享廣告的點擊中獲取的結果,雖然不知道因果,但是這種相關性對我們提升廣告的點擊率也有幫助,我們要學著接收這種不知道原因的答案,如果我們願意接收,就跳出了機械思維只追求因果的方式。
大數據時代已經來了,我們的思維方式不要再停留在僅僅熟悉機械思維的方式考慮問題,要敢於接收沒有因果的答案。
祝大家都能有思維上的提升。
---- 明翼 2019年8月31日於成都