① 大數據在未來生活中的運用
哈爾濱理工大學孫名松談大數據在高校智慧校園中的應用
摘要: 2月15日,哈爾濱理工大學軟體學院院長、教授孫名松在CIO時代APP微講座欄目作了題為《大數據在高校智慧校園中的應用》的主題分享,
關鍵詞:
CIO時代APP
微講座
一、小數據時代與大數據時代
「數據(data)」在拉丁文里的意思是「已知」,也可以理解為「存在」。所以「數據」就是「存在」,「大數據」就是「大存在」。研究大數據,就是研究大存在,亦即研究一切物質、一切行為、一切思想,以及人類自身。
數據充斥並改造著人們的生活、工作。數據化是指把現象轉變為可指標分析的量化形式的過程,其中包含對世界的梳理、理解,並形成可保存的經驗。計算和記錄共同促成了數據的產生,是數據化的根基。而數字化是把模擬數據轉換成0、1表示的二進制碼,方便人類使用現代技術對數據進行更好的處理。數據化是一種思想,數字化是一種手段;數據化古而有之,數字化方興未艾。
小數據時代依靠隨機采樣,其原則是以最少的數據獲得最多的信息。但如此,則無法了解一些微觀細節,不利於對某些特定子類進行分析。而「參差不齊是世界的本質」,細節缺失將會影響到對整個自然活動、人類活動的探索與研究。此外,隨機采樣以研究者的理論前提為設計基礎,只能對已遴選的問題進行解答,而難以慮及其他問題。也就是說小數據時代是以極其有限的信息面對有「偏見」的問題。
大數據時代,意味著將世界數據化,意味著世界的本質就是信息。世界不僅被看成一串事件的組合,更被看做信息的集合,數據的集合。這是世界觀的深刻變革:人類具備以往認識並處理事件的經驗而不盲從於經驗,人類採集「數據」但更明確「所見、所思、所得」皆為「數據」,我們生活在數據的海洋之中,我們自身即為數據。
以上,從小數據時代到大數據時代,伴隨或產生了以下幾種轉變與認識:
1、意識到「樣本」等於總體。用更大、更全、更綜合的態度來觀察、理解、關照世界。
2、大數據對於精確性的要求降低。在小數據時代,因為數據少,所以對數據的精確度要求非常之高,而當大量數據出現時或者要求數據量大時,必然需要接受數據的紛繁復雜。
3、要意識到數據錯誤並不是大數據的固有特性,而是需要處理的實際問題,該問題可能長期存在。
4、混雜絕不等於錯誤。混雜是大數據的常態,且應該是一種基本態和標准態。
5、大數據揭示了傳統樣本無法揭示的細節信息,大數據是通往「精準」處理的基本途徑。
6、大數據時代,不再熱衷於追求因果關系,而是試圖探尋不同事物之間的關系,在此基礎上找到可供觀察的關聯物,以進行預測。而預測,是大數據應用的核心所在。
7、相關關系被闡釋之後,可進行因果關系的分析。但是必須注意到,因果關系只是相關關系的特殊形式,因果關系在大數據時代已經不是解釋世界的基礎;相關關系是一種較為普通的存在,在大數據時代更容易被發掘,可以更高效地指導實踐,甚或隨著大數據的發展,以往的因果關系可能會被證偽,或被視為相關關系。
其中第1點是大數據對於認識論的改造;第2—5點體現了大數據時代與傳統時代對數據要求的迥然不同;第6和7點則是數據間邏輯關系的優先性的顛覆。從實踐的角度而言,第1點可以作為前提,第2—5點可以作為數據搜集與處理的准則,第6和7點或可作為數據解釋的指導方向。
二、大數據在高校智慧校園中的應用
2015年國家提出並制定了「互聯網+」行動計劃,將「互聯網+」上升到了國家戰略。「互聯網+」的提出必將給高校智慧校園建設增加新的內涵、注入新的動力。藉助「互聯網+」推動數字校園加速向智慧校園升級,充分利用雲計算、物聯網、移動互聯、大數據等一系列新技術、新理念、新模式,打造全新的大學智慧校園,有力支撐大學未來發展戰略,帶動人才培養及評價方式的創新、提升校務治理水平,提供多層次的個性化服務和智能化管理決策,大學智慧校園建設的核心內涵可以概括為「全面的環境感知、無縫的網路互通、彈性的雲生態圈、海量的數據支撐、開放的學習環境、個性化師生服務、智能化管理決策、高效的校務治理」。
高校在信息化進程中,產生了各類結構化和非結構化的數據,包括教學管理數據、教學資源數據、學生信息數據等,大到高校的治校方針策略,小到學生的日常消費,數據繁多,類型復雜。利用大數據技術對這些數據進行搜集、分析,轉化為高校管理與服務可利用的資源,將對智慧校園建設起到非常重要的作用。
下面舉例說明大數據技術在智慧校園中的應用。
1、綜合校情展示
對學校管理者而言,通過綜合校情分析展示,可以對學校的在校生情況(本科生、研究生)、課程情況、科研成果情況、獎助情況、就業情況、教工情況、教師分布、幹部情況、傢具情況、資產情況、房屋情況、排名情況、消費情況等方面進行直觀的了解和橫向縱向的對比。結合歷年數據變化規律可以為輔助決策提供依據。不同系統之間數據的關聯性或許能夠給管理者決策提供新的思路。
綜合校情展示主要包括基礎數據分析展示和行為數據分析展示。
基本數據分析:如招生數據分析、學生數據分析、畢業數據分析、教師數據分析、課程數據分析、成績數據分析、就業數據分析、高校資產數據分析等。
行為數據分析:學校食堂就餐情況分析、一卡通消費行為分析、上網行為分析、圖書借閱行為分析、圖書館使用時長、上網時長/流量和成績之間的相關性分析、重點人群群體的特徵刻畫分析和預警等等。
舉例說明:
(a)高校就業信息統計。從高校學生的畢業去向、就業單位、就業地區、就業行業、就業薪資等多維度進行統計分析,全面呈現高校就業情況,為高校就業辦發現學生就業規律、有針對性的進行學生就業指導提供支撐。
(b)教學信息統計分析。為校領導呈現了高校熱門課程排行、各院系開設課程統計和學生成績統計分析、掛科率分析,全面呈現學生在校期間的學習與成績分布,為指導高校課程開設、提高學生成績提供支撐。
(c)一卡通統計分析。展現了高校學生整體消費能力、消費偏好,為後勤部門了解學生餐飲、購物偏好,有針對性的提升服務水平提供支撐。
(d)各生源地消費能力。按照生源地統計該地區學生的消費能力,來詳細查看在某一段時間學生消費額和消費次數的統計。
(e)學校網路使用狀況分析和學生上網行為統計。通過對學生上網的地址進行統計、分析,結合其基礎的個人信息數據,可按不同的維度,比如性別、籍貫、院系等來統計出不同類別的人群,對於某類網站的使用頻率。如果記錄的日誌足夠詳細,甚至可以統計出學生在網上消費的喜好或偏向,對於後勤或學工等部門也是一個比較重要的參考。
應用到的相關技術有:數據關聯分析、多源數據整合、海量日誌數據處理、benchmark、指標體系建立、AgileBI、全文檢索引擎。
2、公共資源使用情況分析
對於高校而言,食堂就餐、體育場館、教室、圖書館、校醫院等各類公共資源有限,師生沒有很好的途徑獲知這些資源的服務能力情況,導致經常發生排隊、擁擠的情況,給師生學習、生活帶來了不好的體驗。隨著學校信息化的推進,各部門管理信息系統逐步建設並投入使用;隨著技術的發展,特別是物聯網和智能感知設備的出現,使數字校園智能服務成為了可能。
數據來源於一卡通消費、一卡通門禁、無線網、校園安全視頻監控等。
(a)食堂、澡堂人員密度狀況及建議各食堂、公共澡堂各時段就餐人員密度情況,各類人員(年級、籍貫、職稱等)就餐愛好、習慣等。
(b)教室使用狀況、人員密度、各時間段教室使用情況、教室人數等;基於無線網路進行考勤。
(c)會議場館、體育場館使用狀況及人員密度。為師生提供會議場館的可用性查詢,體育場館的使用情況(有課、無課等),以及人員密度發布。
(e)圖書館座位使用狀況及人員密度發布,提供圖書館座位空閑情況及圖書館內人數等。
(f)校內人員密度分布。根據學校無線網數據、安全視頻監控信息,識別學校人員熱力分布圖。
應用到的相關技術有:數據關聯分析、數據挖掘(聚類分析)、海量日誌數據處理、多源數據整合(日誌數據與結構化數據整合)、高速內存資料庫、分布式全文檢索引擎。
3、個人數據報告
面向校園師生用戶提供個性化數據服務,展現師生在校園內學習、消費、生活、健康等
方面的個人行為習慣以,幫助學生從嚴謹的數據分析更加了解自己,以及與他人的差異,幫助校園師生感受信息化帶來的人文關懷與改變。
數據來源自一卡通消費、圖書館門禁、圖書借閱系統、校園網路系統、體育場館門禁等。
(a)校園卡賬單及消費習慣分析報告;
(b)圖書館進出頻次、時長及借閱習慣分析報告;
(c)網路賬單及上網習慣分析報告;
(d)體育健身鍛煉學期報告。
通過高校官方微信號、APP進行手機推送,移動互聯網時代方便用戶及時閱讀、分享、傳播。
面向校園師生用戶提供個性化數據服務,展現師生在校園內學習、消費、生活、健康等方面的個人行為習慣以,幫助學生從嚴謹的數據分析更加了解自己,以及與他人的差異,幫助校園師生感受信息化帶來的人文關懷與改變。
應用到的相關技術有:數據關聯分析、數據挖掘(用戶畫像)、海量日誌數據處理、多源數據整合。
4、圖書館電子期刊資源使用效率分析
高校每年花費資金購買著名期刊論文集,為師生用戶提供便捷的文獻檢索和下載服務。圖書館電子期刊資源的使用情況、不同學科對於不同電子期刊資源使用偏好的差異,是圖書館亟需了解的內容。通過對高校用戶期刊文獻檢索記錄的大數據分析,優化論文期刊購買方案,使圖書館可以采購到師生更加需要的資源(傳統紙質+電子資源),提高現有采購效率。
學校通常的做法是向數據商(如萬方、CNKI)購買電子期刊資源訪問統計數據,而這種方式基於學校整體訪問數據做統計分析,無法基於用戶做訪問詳情的分析統計,從而無法獲取到基於不同學科門類、不同學院和專業特點、不同教師等級的不同人群期刊訪問情況分析,也無法了解到不同資源庫的使用情況橫向對比分析。對師生的檢索關鍵詞進行挖掘也是非常重要的方向,而傳統的做法無法了解學校師生用戶檢索電子期刊資源的檢索偏好、檢索熱門等具體信息。
出口網路日誌數據記錄了師生訪問電子期刊資源庫的行為,通過大數據技術對出口URL日誌等數據進行處理及關鍵信息提取,關聯學校內部用戶信息數據,將實現圖書館電子資源使用的全面分析以及人群分析,為圖書館采購決策提供輔助。
數據來源自圖書館采購電子期刊資源列表、師生上網URL日誌、師生上網身份認證等。
應用到的相關技術有:數據關聯分析、海量日誌數據處理、多源數據整合(日誌數據與結構化數據整合)、分布式全文檢索引擎。
5、校園輿情監測
在移動互聯網大潮之下,無論是正面信息還是負面信息都會以更快的速度傳播。學校聲譽對學校招生、就業、評優評先等方面有很大影響,隨著移動互聯網和社交媒體的普及,高校越來越重視學校的社會評價。目前部分高校會利用互聯網數據監測學校聲譽,通過大數據的手段通過實時監測互聯網新媒體上與學校相關的新聞、傳播話題和用戶反饋,了解學校輿情、聲譽及影響力。
應用到的相關技術有:文本挖掘、語義分析(正負面判斷)、語義相似度計算、彈性爬蟲引擎、分布式全文檢索引擎。
我所了解的大數據在智慧校園中的應用還包括教學信息統計分析,通過對課程知識結構進行樣本分析,結合教育過程,綜合學生學習成績分布來驗證課程講授過程的合理性和工程教育認證中的達成度來綜合分析課程開設的合理性。
又如,學校資產管理信息分析,藉助於資產管理信息平台實現對校園基礎設施、教學實驗設備、校園通信網路設備等數據的採集分析,為學校基礎建設方向、教學實驗設備的維護、校園網通信設備的升級改造提供數據支持。
「智慧網格學生管理平台」,以高校信息技術和數字化校園建設成果為基礎支撐,建設以社區網格、管理網格、教育網格三個維度的網格為載體,面向學生發展的綜合管理與服務流程優化的總體框架。對學生培養全生命周期中的生活、學業、思想等發展過程進行主動輔導,形成協同可持續的智慧管理與導引發展新模式,具有學生畫像、學生行為預警(在校狀況、學業、消費、身心健康)、學生家庭經濟狀況分析、學生綜合數據檢索、學生群體分析等功能,能夠輔助學工部門、院系管理者和輔導員開展學生安全教育管理、學生心理健康輔導、精準資助等工作,提升工作效率,促進學生管理工作創新與實踐。
由於時間關系,今天就交流這么多。謝謝!
② 我們應以何種思維方式來適應大數據時代
我們應以何種思維方式來適應大數據時代
目前,在報刊文獻和各種媒體中,大數據這個概念,幾乎是處處可見、不絕於耳;同時,學術界的學術研究,使人們對大數據的理性認識水平不斷提高。有學者認為,2012年世界迎來了大數據元年,而2013年則是中國的大數據元年。正是因為如此,從世界到中國的學術界,特別是科技界,大多數人都比較一致地認為,我們已經進入到大數據時代——一個全新的信息時代。
大數據將為整個社會的全面發展帶來全新的動力。大數據的運行及其作用的發揮,一方面需要相應的社會條件,另一方面它也必然會創造出自己所需要的全新的社會條件。很顯然,要迎接這樣的革命性的新科技時代,需要我們做好各方面的准備,而這其中的一個關鍵,是與社會體制變革相適應的人們的思想變革。質而言之,就是大數據時代要求人們的思維方式進行一次深刻的改造。
大數據時代需要實證思維
這個問題的解決,首先是需要我們對大數據這個概念有一個真正的科學認識。現在的一些權威性研究性機構和文獻,都在試圖對大數據進行學術性的界定,其觀點,大體上比較一致。什麼是大數據呢?美國、英國等國家的有關專門機構和專業刊物上,對大數據概念的內涵都提出了自己的解釋,我國的有關機構,特別是專業學者,也同時提出了自己的一些獨立學術見解。綜合起來看,基本觀點主要是,所謂大數據是指一般傳統工具無法處理的海量的、高增長率、多樣化的信息資源;大數據反映的是網路時代的一種客觀存在,即那些難以用傳統工具認知的有巨大挑戰性質的數據;大數據是指那種無法在一定時間內用常規軟體工具處理的數據集合;如此等等。因為大數據作為一種巨量的數據集,能夠從其中挖掘出各種有價值的信息,所以日益受到重視。
從這些界定中可以看出,大數據是超出了傳統意義上的、極其巨大的、具有特殊價值的數據信息資源。但是,對大數據這樣的界定,仍然是一種實體性質的描述,所以,還不能說是揭示了它的本質。那麼,大數據的本質究竟是什麼呢?在我看來,所謂「大數據」,已經不是一種具體的物理時空概念,而是一種哲學理論層次上的科學概念,也就是說,大數據本身已經具有了高度的理論抽象性質。據此,我們還可以大膽做出這樣的判斷:大數據已經不是一種具體的物質實體,本質上是一種抽象的哲學概念。面對著物質發展的這個嶄新世界——大數據,我們那些常規的認識方式,已經不可能深刻認識它的特殊本質特徵了,這就決定了在大數據時代,我們在認識領域必須來一次思維方式的根本性改造。
大數據作為人類實踐和認識的一種特殊形式、特殊成果,要求我們對長期以來形成的經驗主義主觀演繹思維方式進行認真改造,牢固形成客觀理性的實證思維方式。
作為現代科學認識形式的大數據,標志著自然科學已經走進了理性認識即理論認識的領域,這本身意味著在這個問題上,我們必須克服方法論上的經驗主義,而代之以客觀理性的實證思維方式。對這一點,恩格斯是有先見之明的。他說過:「經驗自然科學積累了如此龐大數量的實證的知識材料,因而在每一個研究領域中系統地和依據其內在聯系來整理這些材料,簡直成了不可推卸的工作。於是,自然科學便走上理論的領域,而在這里經驗的方法不中用了,在這里只有理論思維才管用。」
如果我們認真思考一下就可以明白,對作為現代科技發展高級階段的大數據的研究和運用,仍然靠以經驗主義為基礎的那種演繹思維方式來進行,不走進理性的思辨思維即理論領域中去,顯然是不行了。這就是說,在面對著大數據這個現代高科技形式,思維方式的根本改造,已經是不能迴避的事情了。當然,在這里,我們所面對的大數據,畢竟是處理信息數據這樣的客觀問題,所以,不能搬用純粹的理論思維,而必須運用以理性為基礎的實證思維方式。這里所說的理性實證思維,是指以理論形態的信息數據這樣的客觀根據,來證明結論的真理性。認識論的經驗教訓告訴我們,這樣的思維方式,能夠在更高的理論層次上達到追求真理的目的,從而避免經驗主義思維方式的弊端。
大數據時代塑造開放性思維
大數據這樣特殊的高新科技發展形式,它的正常運行和充分作用發揮,另一個重要條件,是要求我們克服各種各樣實際上的封閉性思維方式,樹立起真實的開放性思維方式。
很顯然,大數據時代思維方式的這種改造,是由大數據本身的本質特徵決定的。我們可以看到,無論是一個地區、一個國家,還是在世界范圍,大數據的形成和運行,是以一種真正的開放形態存在著的。我們甚至可以這樣說,不管是在什麼樣的范圍里,沒有真正開放的社會環境,就不可能有大數據這樣高科技形式的真正存在,這樣的現代高科技也不可能發揮它的特殊作用。
我們這里所說的大數據的開放性,是指它本身的無限發展特點。我們可以想像,就任何一個數據集合本身而言,無論是在時間上還是在空間上,不存在一種量的框框,因為它總是處在一種不斷的生生息息的發展過程中。這就決定了大數據的存在和運行是沒有邊界局限的,也就是說,對大數據來說,不存在地區界限、國家界限;這個事實本身也在告訴我們,任何一種大數據、每一種數據本身是開放性的存在,各種數據之間也必然是互相開放著的,否則,它們就不成其為大數據了。實踐證明,大數據這種徹底的開放性本質,對思維方式的改造是具有革命意義的。
大數據的這種特殊本質,要求我們必須以完全開放的心態對待它的運行和發展,從而形成與大數據本身相一致的廣闊思想視野,這樣才能把大數據真正視為各個地區、各個民族、各個國家的共同財富,互通有無、共有共享。這恰恰是真正的開放性思維方式的本質要求。
大數據時代所要求的開放性思維方式改造,對於我們目前的社會科學研究,特別是馬克思主義研究,是非常重要的,而且也是社會科學深入發展的一個契機。因為,我們在這方面的許多研究工作,實際上還是在封閉的狀態中進行的,特別是在世界范圍內,更是如此。事實證明,這樣的研究方式,無異於把自己禁錮在某種理論框架中走投無路,或者是陷入某種思想深坑不能自拔。出路何在?在廣闊的開放視野中,放眼世界,走人類文明發展的共同道路。
大數據時代呼喚多元性思維
大數據科技形式的正常運行、其作用的充分發揮,還有一個重要條件,這就是要求我們把一元性思維方式改造為充滿活力的多元性思維方式。事實證明,由大數據催生的這種思維方式改造,其意義遠遠超出了大數據的運用范圍,它的深刻影響將在各個方面顯示出來。
大數據為什麼會催生思維方式的這種根本性的改造呢?這里涉及對大數據之「大」的科學理解問題。一般來說,數據之「大」,與數據之「多」是具有相同意思的。當然,這里說的「多」,並不僅僅是個實體量的概念,而是數據——信息之質與量統一的表現形式。這就是說,大數據不僅是一種極為巨大數量的信息群,而且同時也是各種各樣不同性質數據形成的信息集。這樣,就必然形成各種各樣不同性質數據的獨立並存,這就是我們稱之為大數據的多元性存在之本來意義。很顯然,大數據存在和運行多元性的這個客觀事實,要求我們對其所應該形成的正確思想反映,在邏輯上只能是多元性思維方式,而絕不應該是單一性思維方式。
為了適應大數據時代的要求,甚至可以說,為了迎接高新科技時代的到來,我們必須對一元性思維方式進行根本改造,代之以多元性思維方式。從本質上看,所謂「大數據」,是一個實際上的多元世界,豐富多彩的世界,異彩紛呈的世界,個性鮮明的世界,因而是一個充滿了活力的世界。這個科學技術發展的事實,必然要求我們改變陳舊的思維方式,破除一元性思維方式,確立起一種能夠正確反映這個新科技時代的世界本來面目的那種多元性思維方式。
改革開放以來的鮮活經驗告訴我們,面對著充滿活力的現代社會,特別是高新科技帶來的勃勃生機,必須下決心改造各種陳舊的思維方式,更快地確立多元性思維方式。
在現代科技發展中,通過思維方式的改造,特別是確立開放性、多元性思維方式,其意義不僅有益於科技事業發展本身,而且還會推動社會的發展。因為這種開放性、多元性思維方式的形成,意味著整個社會正在朝著自由人的聯合體這一歷史性方向前進。雖然這只是一個起步,但是,卻具有極為深遠的歷史意義。
③ 大數據帶來的大影響
大數據帶來的大影響_數據分析師考試
如果把「數據化」視為信息社會的初級階段,則名不見經傳的英國科學家維克托·邁爾-舍恩伯格,用他別具洞見的天才新著《大數據時代》首次告訴我們:人類正在進入「數據顛覆傳統」的信息社會中級階段。
在此階段,信息無所不在無所不包,其無限膨脹的天文海量催生了「統計+分類-推理分析=決策」的計算機處理程序(有點像刷卡消費一步到位,節省了算賬找補等繁瑣環節),悄然挑戰「去粗取精、去偽存真、由表及裡、由此及彼」的傳統認識論模式,冥冥之中潛移默化,對我們的生活、工作與思維,對人類「階級斗爭、生產斗爭、科學試驗」三大實踐活動產生著重大而深刻的影響。
大數據點燃
美國政府曾為定期公布消費物價指數CPI以監控通脹率,僱用了大量人員向全美90個城市的商店、辦公室進行電話、傳真拜訪,耗資2.5億美元搜集反饋8萬種商品價格的延時信息。然而麻省理工學院兩位經濟學家採取「大數據」方案,通過一個軟體在互聯網上每天搜集50萬種商品價格即時信息。2008年9月雷曼兄弟公司破產後,該軟體馬上發現了通脹轉為通縮的趨勢,而官方數據直到11月才發現。之後該軟體被暢銷到70多個國家。這一案例充分體現出「大數據」顛覆傳統的力量和變革思維的智慧。
「小數據」時代追求精準,竭力避免不精準信息誤導誤判。然而95%被傳統資料庫拒絕接受的非結構化(非標准)數據,在「大數據」時代的模糊化資料庫中發揮了重要的作用,因為數據越模糊越全面,才能有效避免誤導誤判。
從因果關繫到相關關系的思維變革,是「大數據」顛覆傳統認識論模式的關鍵。電腦畢竟不是人腦,電腦永遠搞不懂氣候與機票價格之間有什麼因果關系。公雞打鳴和天亮之間雖無因果關系,但古人通過公雞打鳴來預報天亮卻很少失敗。「如果數百萬條醫療記錄顯示橙汁和阿司匹林的特定組合對癌症治療有效果,那就用不著通過一次次實驗來探索其具體的葯理機制了」。「蘋果之父」喬布斯就主動試用過一些醫療記錄有效但未經臨床驗證的療法同癌症抗爭。你可以嘲笑喬布斯「不講科學」,但他卻因此多活了好幾年。
從根本上說,所謂「大數據挑戰傳統認識論」,其實是人類把復雜的認識過程「全部打包」給了電腦,而電腦懶得分析推理驗證,只通過統計分類對比,交出「最終答案」就OK了。大數據的精髓在於變「少而精」為「多而全」,變「因果」為「相關」。當實地調研開始被數據採集所替代,當嚴密的實驗開始被非線性邏輯所替代,當「唯一真理」開始被多項選擇所替代,「大數據」就用事實向人類宣告:「知其然不知其所以然」,既是電腦望塵人腦的劣勢,也是電腦超越人腦的優勢!
大數據滲透大世界
不要以為「大數據」只是科幻故事或政府與科學家的「專利」。環顧四周,「大數據」早已滲透我們生活和工作的方方面面,衍生出形形色色的數據超市、數據易趣、數據交友、數據聯誼、數據作坊、數據課堂、數據IB等傳奇版本。從治安管理、交通運輸、醫療衛生、商業貿易、批發零售、公益救援直到政治、軍事、經濟、金融、社會、環境、文藝、體育。
UPS國際快運公司從2000年開始通過「大數據」檢測其遍布全美的6萬輛貨車車隊,統計出各損耗零部件的生命周期,改「備份攜帶」為提前更換,有效預防了半路拋錨造成的嚴重麻煩和巨大損失,每年節省數百萬美元。UPS還依靠「大數據」優化行車路線(例如盡量右轉彎,避免左轉彎),2011年全公司車輛少跑4828萬公里,節省燃料300萬加侖,減少碳排放3萬公噸。
為紐約提供電力支持的愛迪生電力公司,針對每年多起電纜沙井蓋爆炸造成嚴重事故,採取「大數據」手段統計出106種預警先兆,預測2009年可能出事的沙井蓋並嚴加監控。結果位列前十分之一的高危井蓋中,預測准確率達44%。
美國里士滿市警察當局憑經驗認定槍擊事件往往導致犯罪高峰期,「大數據」證明這種高峰期往往出現在槍擊事件後2周左右。孟菲斯市2006年啟動「大數據」系統鎖定了更容易發生犯罪的地點和更容易抓捕罪犯的時間,使重大犯罪發生率下降26%。
沃爾瑪2004年依靠「大數據」發現了颶風前夕銷量增加的各類商品,進而每逢預報便及時設立颶風用品專區,並將手電筒、早餐零食蛋撻等擺放於專區附近,明顯增加了「順便購買」的銷量。
至於「大數據」的經濟價值,僅需略舉數例:2006年微軟以1.1億美元購買了埃齊奧尼的Farecast公司,2008年穀歌以7億美元購買了為Farecast提供數據的ITA Software公司。同年在冰島成立的DataMarket網站乾脆專靠搜集提供聯合國、世界銀行、歐盟統計局等權威機構的免費信息來獲利生存,包括倒賣各類研究機構公開發布的研究數據——只要找到買主,往往願出高價!
大數據創造大金融
金融領域當然是「大數據」的主戰場之一。程序化交易也許是現今最主要的「大數據」新式武器。美國股市每天成交量高達70億股,但其中三分之二的交易量並非由人操作,而是由建立在數學模型和演算法之上的計算機程序自動完成。日新月異的程序化交易只能運用海量數據來預測收益、降低風險。幾乎所有銀行、券商、保險、期貨、QFII和投資公司都開發了自己的程序化交易工具。誰的武器更先進?競爭到最後恐怕還是比誰搜集處理的數據更海量。
一家投資基金通過統計大商場周邊停車場及路口交通擁擠狀況,來預測商場經營及當地經濟狀況,進而預測相關股價走勢,最後居然拿數據統計資料換得了該商場的部分股權。
不少對沖基金通過搜集統計社交網站推特上的市場心情等信息來預測股市的表現。倫敦和加利福尼亞的兩家對沖基金,利用「大數據」形成119份表情圖和18864項獨立的指數,向許多客戶推銷股市每分鍾的「動態表情」:樂觀、憂郁、鎮靜、驚恐、呆滯、害怕、生氣、激憤等,以幫助和帶動投資決策。
在金融機構競相拉客理財的今天,如果能及時搜集處理海量的微博、微信、簡訊,自然也能從茫茫人海中及時發現怦然心動打算開戶的,或一氣之下打算「跳槽」的投資者。
當然,如果投資者都能通過「大數據」直接決策,將「刷卡消費」拓展成「刷卡投資」,那藏龍卧虎的分析師群體和爭雄斗妍的研究報告未來還有市場嗎?
大數據暗藏大隱患
像所有新生事物一樣,大數據也是一把雙刃劍。宏觀上看,「大數據」在各個不同的領域將人類虛擬分割為「數據化」與「被數據化」兩大陣營。持續發酵的「棱鏡門」事件披露了美國政府長期監控全世界的「最高機密」,但美國總統、國會和政府都認定這種監控「天經地義」,是「維護國家核心利益」。雖然社會早已建立起龐大的法律法規體系來保障個人信息安全,但在「大數據」時代,這些體系正蛻變為固若金湯但可以隨意繞過的「馬其諾防線」。
「大數據」導致個人信息被交易、個人隱私被外泄還不算,更大的危險在於「個人行為被預測」。正如作者預言——「這些能預測我們可能生病、拖欠還款甚至犯罪的演算法程序,會讓我們無法購買保險、無法貸款,甚至在犯罪實施前就預先被逮捕」——也許你認為這對全社會來說無疑是好事。可是如果預測系統不完善、軟硬體出差錯、數據搜集處理不當、臨時數據未經檢驗、黑客攻擊、有人惡意或善意開玩笑製造假信息……導致你、你的家庭、你的親朋好友、你的所在單位甚至你的祖國被冤枉被制裁,你還能無動於衷嗎?
微觀上看,即使是出於正當目的採集的「大數據」,仍可能在「擴展開發」過程中產生無法想像的副作用。例如谷歌的街景拍攝和GPS數據為衛星定位和自動駕駛儀提供了關鍵的支持,但同時因其有助於黑幫盜賊便捷挑選有利目標而引發了多國民眾的強烈抗議。當谷歌對圖像背景上的業主房屋、花園等目標進行模糊化處理後,反而引起盜賊更加註意。
無論你驚奇還是恐懼,歡迎還是躲避,關注還是漠視,理解還是拒絕,「大數據」都在加快步伐向我們走來。我們只有順勢而為,趨利避害,才不至於被這個充滿機遇和挑戰的新時代提前淘汰。
以上是小編為大家分享的關於大數據帶來的大影響的相關內容,更多信息可以關注環球青藤分享更多干貨
④ 如何正確認識大數據的價值和效益
1、數據使用必須承擔保護的責任與義務
我國數據流通與數據交易主要存在以下問題:數據源活性不夠,數據中介機構還處於起步階段;多源數據的匯集技術尤其是非結構化數據分析技術滯後;缺乏熟悉不同行業並掌握在特定領域使用數據技術的人才。
數據的價值在於融合與挖掘,數據流通、交易有利於促進數據的融合和挖掘,搞活數據從而產生效益。數據共享開放、流通交易和數據保護及數據安全對數據技術提出嚴峻挑戰,對法律的制定及執行提出了很高要求。為此,數據使用必須承擔保護的責任與義務。
⑤ 大數據時代,我國數據量究竟有多大
從2013年初開始,對於大數據爆發的焦慮感,緊迫感,不由自主地被捲入的甚至無力的感覺,驅動眾多行業、企業和團體去關注和開始接觸和了解大 數據,自覺或不自覺的,主動或不得已地去融入這波洪流。但是,真的說到大數據,我們中國到底有多少數據量,它們都分布在哪些行業,哪些數據是目 前可用的,哪些行業已經在使用數據,進入產業互聯網和數據引導的變革了?
可能看到的版圖依舊模糊。因此,我們懷抱很好的希望,以第一個吃螃蟹並期待來自行業的矯正和拍磚的態度,首先嘗試對於國內各個領域,行業以 及機構的數據擁有情況,使用情況以及未來路徑做一個粗獷地調研、梳理和判斷,對大數據時代我國各個領域數據資產的擁有和使用情況,也就是我們數 據資產的家底做個盤點,也對各個行業、系統進軍大數據,以及擁抱產業互聯網的進度和未來做個簡單判斷。事實上,大數據之題無疑繁若星辰,然而只 有在相對完整的視圖下,繁星若塵,我們才可得以一窺天機。
從我們手頭掌握的數據來看,2013年度,中國存儲市場出貨容量超過1個EB(1EB=多少),存儲總量而IDC曾經發布的預測表明在未來的3-4年,中國存儲總 容量可能達到18個EB。從數據存儲市場的需求來看,互聯網、醫療健康、通信、公共安全以及軍工等行業的需求是主要的,且上升態勢明顯。
鑒於存儲和伺服器的緊密相關,我們從已經獲得的資料可以知道,目前全球運行的伺服器總量超過5000萬台,美國國內運行的伺服器總體容量接近 1000萬台。從各種市場公開數據來看,2013年中國內地伺服器銷售總數接近為100萬台。大體估算,截止到2013年底,中國內地整體在運行的伺服器總數 量在300萬台以上。
從現有存儲容量看,中國目前可存儲數據容量大約在8EB-10EB左右,現有的可以保存下來的數據容量大約在5EB左右,且每兩年左右會翻上一倍。這些 被存儲數據的大體分布為:媒體/互聯網占據現有容量的1/3,政府部門/電信企業占據1/3,其他的金融、教育、製造、服務業各部分佔據剩餘1/3數據量 。
公開數據顯示,互聯網搜索巨頭網路2013年擁有數據量接近EB級別、阿里、騰訊聲明自己存儲的數據總量都達到了百PB以上。此外,電信、醫療、金 融、公共安全、交通、氣象等各個方面保存的數據量也都達到數十或者上百PB級別。
在目前被廣泛引用的IDC和EMC聯合發布的「2020年的數字宇宙」報告 預測到2020年,全球數字宇宙將會膨脹到40ZB,均攤每個人身上是5200GB以上,這個量將會如何被有效存儲和應用,我們眼下還很難想像。然而我們 看到該報告指出,從現在起到2020年,全球數字宇宙的膨脹率大約為每兩年翻一番。事實上,根據上述調查結論和伺服器容量調查,我們也能做出個相對 合理的推斷:目前,全球產生的數據量中僅有1%左右的數據能夠被保存下來,也就是說今天全球能夠被保存下來的數據也就是在50EB左右,而其中被標記 並用於分析的數據更是不到10%。
作為全球人口和計算設備保有量的大國,我國每年所能產生的數據量也極為龐大,有數據說2014年甚至可能達到ZB級別,但是真正被有效存儲下來的 數據僅僅是其中極微少部分,中國保存下來數據佔全球數據的比例大約在10%左右,也就是上面說的5EB。這些數據中,目前已被標記並用於分析的數據僅 達到500PB左右,也是接近10%的一個比例。
伴隨著雲計算迅速普及和各行業,各企業和部門對於數據資產保存和利用意識的增強,以及通過互聯網、大數據對產業進行變革的意願,未來2-3年一 定會有越來越多的行業、大企業步入到PB、百PB、甚至EB級別數據俱樂部,未來3-3年中國的數據總量也將呈翻倍上升態勢,我們預測2015年中國就可能 突破10EB數據保有量,被標簽和分析利用數據量也將上升到EB級別,這些數據增長中互聯網、政務、醫療、教育、安全等行業和領域所做貢獻最大,而相 對傳統的物流、生產製造、甚至農業等領域數據擁有量的增長將更加明顯。
⑥ 大數據 大變革、大機遇
大數據:大變革、大機遇
從來沒有哪一次技術變革能像大數據革命一樣,在短短的數年之內,從少數科學家的主張,轉變為全球領軍公司的戰略實踐,繼而上升為大國的競爭戰略,形成一股無法忽視、無法迴避的歷史潮流。互聯網、物聯網、雲計算、智慧城市、智慧地球正在使數據沿著「摩爾定律」飛速增長,一個與物理空間平行的數字空間正在形成。在新的數字世界當中,數據成為最寶貴的生產要素,順應趨勢、積極謀變的國家和企業將乘勢崛起,成為新的領軍者;無動於衷、墨守成規的組織將逐漸被邊緣化,失去競爭的活力和動力。毫無疑問,大數據正在開啟一個嶄新時代。
大數據時代有什麼本質特徵?大數據的來源是什麼?大數據又將流向哪裡?大數據在提升政府治理、改善經濟治理、再造公共服務模式、激發商業創新方面有哪些卓越案例?中國需要怎麼樣的戰略反應才能抓住大數據帶來的寶貴機遇?一系列問題亟待研究者給出深入解析。
「數據驅動發展」成為時代主題
如今,大數據已經被賦予多重戰略含義。從資源的角度,數據被視為「未來的石油」,作為戰略性資產進行管理;從國家治理角度,大數據被用來提升治理效率、重構治理模式、破解治理難題,它將掀起一場國家治理革命;從經濟增長角度,大數據是全球經濟低迷環境下的產業亮點,是戰略新興產業的最活躍部分;從國家安全形度,全球數據空間沒有國界邊疆,大數據能力成為大國之間博弈和較量的利器。總之,國家競爭焦點將從資本、土地、人口、資源轉向數據空間,全球競爭版圖將分成新的兩大陣營:數據強國與數據弱國。
宏觀上看,由於大數據革命的系統性影響和深遠意義,主要大國快速做出戰略響應,將大數據置於非常核心的位置,推出國家級創新戰略計劃。美國2012年發布《大數據研究和發展計劃》,並成立「大數據高級指導小組」,2013年又推出「數據—知識—行動」計劃,2014年進一步發布《大數據:把握機遇,維護價值》政策報告,啟動「公開數據行動」,陸續公開50個門類的政府數據,鼓勵商業部門進行開發和創新。歐盟正在力推《數據價值鏈戰略計劃》,英國發布《英國數據能力發展戰略規劃》,日本發布《創建最尖端IT國家宣言》,韓國提出「大數據中心戰略」。中國多個省市發布了大數據發展戰略,國家層面的《關於促進大數據發展的行動綱要》也於2015年8月19日正式通過。
微觀上看,大數據重塑了企業的發展戰略和轉型方向。美國的企業以GE提出的「工業互聯網」為代表,提出智能機器、智能生產系統、智能決策系統,將逐漸取代原有的生產體系,構成一個「以數據為核心」智能化產業生態系統。德國企業以「工業4.0」為代表,要通過信息物理系統(CPS——cyber physical system),把一切機器、物品、人、服務、建築統統連接起來,形成一個高度整合的生產系統。中國的企業以阿里巴巴董事局主席馬雲提出的「DT時代」(data technology)為代表,認為未來驅動發展的不再是石油、鋼鐵,而是數據。這三種新的發展理念可謂異曲同工、如出一轍,共同宣告了「數據驅動發展」成為時代主題。
與此同時,大數據也是促進國家治理變革的基礎性力量。正如《大數據時代》作者舍恩伯格在定義中所強調的,「大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的」。在國家治理領域,陽光政府、責任政府、智慧政府建設,大數據為解決以往的「頑疾」和「痛點」提供了強大支撐;精準醫療、個性化教育、社會監管、輿情監測預警,大數據使以往無法實現的環節變得簡單、可操作;大數據也使一些新的主題成為國家治理的重點,比如維護數據主權、開放數據資產、保持在數字空間的國家競爭力等。
從哲學意義上來看,大數據不僅僅是一場技術革命,也不僅僅是一場管理革命或者治理革命,它給人類的認知能力帶來深刻變化,可謂是認識論的一次升華。具體而言,大數據可以為決策者解決「四個問題」,提升「兩種能力」。一是解決「坐井觀天」的問題,以往人們決策只能基於視野之內極為有限的局部信息,和井底之蛙無異,大數據則可以實現整個蒼穹盡收眼底;二是解決「一葉障目」的問題,以往不具備全樣本數據分析能力,只能用小樣本分析近似推理,猶如從「泰山」中取來「一葉」,而真理可能存在於全樣本的海量數據之中,藉助大數據則可完全克服;三是解決「瞎子摸象」的問題,七個瞎子根本無法根據各自的認識加總出完整的大象,因為他們的信息是相互離散的,無法有效關聯起來,而大數據的基本優點是在深入關聯中還原事物的原貌;四是解決「城門失火,殃及池魚」的問題,人們習慣於因果分析,遇到這種「稀奇古怪」的因果鏈則很難前瞻和推理,但大數據注重相關關系,可以准確地發掘出規律。提升兩種能力,一個是「一葉知秋」的能力,體現大數據敏銳的洞察能力,另一個是「運籌帷幄,決勝千里」的能力;體現大數據對時空約束的突破。這些足以說明,大數據是人類認識世界和改造世界能力的一次升華。
中國成為數據強國的優勢、挑戰與路徑
值得振奮的是,中國具備成為數據強國的優勢條件。從2013年至2020年,全球數據規模將增長十倍,每年產生的數據量由當前的4.4萬億GB,增長至44萬億GB,每兩年翻一番。從全球佔比來看,中國成為數據強國的潛力極為突出,2010年中國數據佔全球比例為10%,2013年佔比為13%,2020年佔比將達到18%,屆時,中國的數據規模將超過美國的數據規模,位居世界第一。中國成為數據大國並不奇怪,因為我們是人口大國、製造業大國、互聯網大國、物聯網大國,這都是最活躍的數據生產主體,未來幾年成為數據大國也是邏輯上必然的結果。
盡管存在成為數據強國的潛力,但在目前的政策環境之下,我國推進大數據戰略仍存在以下幾個清晰的挑戰。第一,頂層設計方面,全球大國之間圍繞大數據的競爭頗為激烈,中國作為一個後發國家,想要實現彎道超車,後來居上並非易事。如何能夠緊扣創新前沿,把准未來趨勢,超前戰略部署,對政策設計來說是一個非常現實的挑戰。第二,數據開放方面,「數據孤島」廣泛存在,雖然政府掌握著80%的數據,但現實中卻相互割裂,自成體系,「部門牆」「行業牆」「地區牆」阻礙了數據的流動共享,數據被視為部門的利益和隱私,這與大數據時代的基本理念准則相悖。第三,大數據相關的法律、法規、標准缺位,導致能夠開放的數據不開放,需要保護的隱私不保護,企業由於標准模糊而無法大膽創新。第四,「數據主權」容易受到侵蝕,由於數據空間是國家新的戰略維度,尚沒有完備的安全保障體系,再加上電腦、手機、晶元、伺服器、搜索引擎、操作系統、軟體等核心的數據「基礎設施」大量依賴進口,數據資產極易流失,數據主權極易受到侵蝕。
把握優勢,克服挑戰,抓住大數據革命帶來的「機會窗口」,建設數據強國,是實現中華民族偉大復興的一個有力支撐。然而,我們需要怎樣做才能更好地擁抱大數據時代,確保在數字化趨勢中立於不敗之地呢?首先,需要在國家頂層設計上有一個清晰的行動框架,包括由什麼部門主導、哪些部門參與、什麼樣的協作機制、沿著什麼優先次序、克服哪些既有的障礙、達到什麼戰略目標,只有這樣,各部門、各地區、企業界、學術界才能形成合力,在一個共同的路線圖上協作推進。其次,盤活數據資產,在數據開放上取得實質性突破。一些基本的建議包括:加快G2G(政府與政府之間)、G2B(政府與企業之間)、G2C(政府與公民之間)大數據開放與共享;推動基礎性、戰略性大數據資源庫整合;加強大數據基礎設施建設,編制國家大數據檔案。最後,把強大的「國家企業」和活躍的「萬眾創新」結合起來。一方面,要培育可以和國際「八大金剛」並駕齊驅的巨型企業作為大數據環境中競爭的中堅力量,同時,鼓勵和引導大眾創業、萬眾創新成為數據生態系統中的活躍力量。
以上是小編為大家分享的關於大數據 大變革、大機遇的相關內容,更多信息可以關注環球青藤分享更多干貨
⑦ 大數據再掀經濟學方法論之爭
大數據再掀經濟學方法論之爭
大數據時代帶來的信息風暴,不僅改變著我們的生活、工作和思維,而且影響著人類認知視角,沖擊著科學研究的基本方法。經濟學被譽為社會科學「皇冠上的明珠」,其主要原因正是強調經驗數據驗證的實證主義較早在經濟研究中得到應用。對經濟學而言,大數據究竟是主流範式的革命,還是一個新的噱頭?帶著這樣的問題,筆者於2015年6月下旬參加了中國社會科學院的「電子社會科學」考察團,赴英國了解當代信息和數據科技對社會科學研究的影響。
「相關性與因果性」:
新方法論之爭?
當前關於大數據的一個重要分歧,就是「相關性與因果性」之爭。大數據倡導者維克托·邁爾·舍恩伯格明確指出,大數據時代最大的轉變就是放棄對因果關系的渴求,而代之以關注相關關系。在諾森比亞大學培訓第一天的課堂討論中,考察團就圍繞這個問題展開了激烈辯論。
實際上,早在大數據時代之前,「因果性與相關性」問題就已經是認知哲學、統計學、經濟學等領域中的一個老問題。從經濟學基礎方法論的角度來看,對「因果性與相關性」的辯論,是人類認知邏輯和科學研究基本問題「演繹與歸納」的現代升級版。19世紀中後期,德國歷史學派與奧地利學派之間展開了「方法論之爭」。奧地利學派創始人卡爾·門格爾堅持以邏輯演繹為基本分析方法。德國歷史學派則懷疑抽象邏輯演繹對現實理解和解釋的有效性,主張由於人類社會的復雜性,首先應該大量收集、整理各種歷史數據,並且從歷史數據中發現經驗規律。這與當前大數據方法論主張放棄或者弱化對因果性的追求,注重從海量數據中發現相關性的觀點如出一轍。從這個角度來說,德國歷史學派可謂大數據「先鋒」。
大數據帶來的「相關性與因果性」新方法論之爭不過是新瓶裝舊酒,實質問題仍然是哲學認識論中經驗論和唯理論對立的老問題。雖然是老問題,但在現代科學哲學認識論和新興的知識社會學之中,仍然是一個爭論焦點。
「你的理論假設是什麼?」
「你的理論假設是什麼?」這是在英國雷丁大學訪問時,考察團成員鍾春平教授向Jornvande Wetering博士提出的一個問題。Wetering博士介紹了正在進行的大數據項目「智慧城市」,該項目旨在通過收集整理大量城市相關數據和信息,改善城市治理和人民生活。在筆者看來,這個問題直指大數據的核心——大數據方法的應用是否可以脫離理論假設?
這個問題與前面的「方法論之爭」密切相關。主流經濟學對「方法論之爭」的當事雙方各打五十大板,認為「演繹與歸納」兩者不可偏廢,並且形成了標準的經濟學實證模式——提出假設和模型,使用數據進行計量檢驗,由此將「演繹與歸納」在哲學認知上的沖突掩蓋起來。新的「相關性與因果性」方法論之爭迫使人們重新面對這個問題,並對實證主義經濟學提出了挑戰。如果按照弗里德曼的「實證主義經濟學方法論」,預測是經濟理論的根本目標和檢驗手段的話,對經濟學理論而言,重要的問題就是「能否做出准確的預測」,而非「是否理解了真實的因果關系」。但是,大數據在探尋相關性方面的優勢,正好構成了對目前主流經濟學範式的批判和革命。至少有一部分大數據論者認為,不需要甚至不應該預設理論前提和假設,只需讓數據自我呈現出規律。按照這種「大數據經濟學」觀點,「假設建模—數據檢驗」的現行標准方法似乎已經過時了。
就自身邏輯而言,奧地利學派的先驗主義和邏輯演繹法倒是可以固守自身立場,並展開對大數據方法論的批判。畢竟探究世界真實狀況和因果關系才是科學研究的核心目標,預測只不過是副產品。在奧地利學派看來,沒有演繹邏輯和理論指導,歷史學派甚至不能確定什麼樣的歷史資料和數據才是重要的,值得收集和整理。這個批判對大數據同樣有效。同樣是在雷丁大學的訪問之中,Nanda博士引述了IBM的報告:「人類社會每天生成的數據高達250兆億個位元組。」從奧地利學派的視角來看,如果脫離具體的理論前提和需要,這個數據量沒有任何意義。生成數據實際上完全依賴於觀察者的目標和理論假設。脫離了這個前提,在不同測量工具精度的條件下,人們完全可以生成無限的觀察數據。
大英圖書館
在大數據時代會破產嗎?
大英圖書館是英國的國家圖書館,擁有超過1.5億件館藏。大英圖書館不僅大量收錄各種電子出版物,而且已經著手保存各種互聯網網頁內容。考慮到大數據時代還只是初露頭角,未來人類社會所能產生的各種文本、圖像等信息數據,無疑還會以指數級別增長。即使英國政府可以頒布法律使圖書館免費獲得這些信息,保存信息所消耗的成本無疑也會以指數級別增長。大英圖書館乃至英國政府能否承受如此高的成本,著實令人懷疑。
這個「杞人憂天」的疑問,其實關繫到「數據」或者「信息」的經濟學屬性,即從「要素」或「財貨」角度來看待「數據」的成本收益問題。大數據理論有一種傾向,認為幾乎所有數據都是有價值的,至少是具有潛在價值,哪怕暫時不知道如何利用,也許在未來可以得到重新認識,因此都值得收集和整理。這看起來似乎很有道理,但從經濟學的角度看卻是不能成立的,因為經濟學的核心問題是「效率」,核心視角是「成本—收益」分析。不只是數據,任何事物都具有所謂「潛在」價值,但如果獲得和保存它的成本超過了收益,那麼在經濟學者看來就是無效率的。
事實上,在信息時代之初,就有學者指出信息和數據具有「零邊際成本」特性,將完全改造經濟學,還有學者提出「新信息經濟學」,主張軟體等信息產品免費共享。大數據時代仍然面臨同樣的問題。部分學者主張數據是免費公共資源,具有巨大的數據分析外部性,最好由政府來提供。但經濟學的基本邏輯在此仍然是有效的。雖然具有某些新特性,信息和數據仍然是「要素」和「財貨」,需要付出成本,並且能夠產生收益。不計成本地收集整理大數據是行不通的。類似地,經濟學效率觀點還對另一個大數據觀點——所謂「全體數據」代替「隨機樣本」的新方法提出了挑戰。「全體數據」固然有其優勢,但放到經濟學「成本—收益」的框架下來看,其方法本身就未必有效率了。
以上是小編為大家分享的關於大數據再掀經濟學方法論之爭的相關內容,更多信息可以關注環球青藤分享更多干貨
⑧ 我國樹立大數據戰略的認識論原理是什麼
物質決定意識。樹立大數據戰略是時代發展的要求。意識具有能動作用。正確的意識促進事物的發展。樹立大數據戰略有利於促進我國經濟社會的發展。
⑨ 哲學如何認識大數據時代
哲學如何認識大數據時代
最近幾年,數據問題進入哲學視野。對於哲學家們探索的數據本質特徵,我們可以從以下幾個方面來把握。
數據與大數據
技術進步,主要是計算機、網路和各種類型的感測器以及雲技術、分布式計算與存儲等海量存儲技術的廣泛應用和運算能力極速進步,使得數據概念被大數據概念取代。數據量增加速度之快,大致可以這樣描述:最近兩年生成的數據量,相當於此前一切時代人類所生產的數據量的總和。
大數據指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。大數據的特徵,除了巨大、快速、多樣多變之外,沒有其他。因此,大數據本質上還是數據。
在大數據的上述特徵中,其多樣多變性值得特別關注。它表現為所生成數據格式的多樣,如文字、圖片、視頻等各有多種不同的格式,取決於生成數據的技術與設備,卻反映出數據生產的時代性以及數據處理的能力與條件,也反映出被描摹自然和社會的多姿多彩。另外,隨著技術發展和數據量急劇增長,新的數據格式還會層出不窮,多變和多樣特徵更加突出。
大數據既是一個技術概念,又是一個商業概念,它的出現,有其特定背景,即IT領域的商業和渲染新技術的考量。大數據包攬了人類獲取數據的所有途徑,提示哲學研究一個全新時代的到來,這個時代的先聲,很久遠之前就已經響起,那時,它僅僅被稱作數據。在我們的討論中,主要考慮數據與哲學的關聯。
數據與認識
這里的認識,指的是人的認識,是人對外部世界的認識。
大數據的出現和引起關注,使得一個事實得到確認,這就是,數據覆蓋了人類對於外部世界的感知。感官及其所獲得的經驗退居到顯示屏之後,退居到各種類型的技術裝置之後,這些裝置將自然和外部世界的映像「轉譯」成人類感官可以接受的圖像、聲音甚至觸覺和嗅覺味覺。這既是技術發展的必然,又是始料未及的情況。如果說,此前,哲學還試圖在技術系統生成的數據之外尋找世界的直觀映像,到了大數據時代,這種人類的直接感知即使沒有被完全取代,也失去了其傳統意義上的優勢。一言以蔽之,哲學,需要從數據中尋求對世界的認識,舍此即失去認識的來源。
這似乎是一個驚人的變故,其實不然。在影響人類認識的議題上,大數據帶來的變化,只是數量和范圍上的,並非根本意義上的改變。事實上,回顧歷史,我們發現,我們的對外部世界的感知,從來都是依賴於某些技術裝置的,也就是說,人的認識,其實是通過數據獲得的。
最早的技術裝置,可能是直尺,它用於測量長度,例如田畝;更早的述說技術裝備,也許是繩結,它用來述說一件重要的事件。在我國,從河北泥河灣先民打造石器,到安陽殷墟龜甲上刻畫的文字,都可以看作是某種「數據」,表達著人類對外部世界的某種認知。而面對著所有這些早期的承載數據的技術裝備,人們獲得對外部世界的某種最早的抽象認識。古代人先後發明過算籌、斗和稱、漏刻、渾象儀、量角器等等,無不是用來產生認知外部世界的數據,人們也發明筆、紙張、雕版印刷術,也是用來記錄和生產數據。依託所有這些,數據成為人們認識的依據,思考的源泉,表達的工具。
近代以來,西方的技術和科學異軍突起,望遠鏡、顯微鏡、六分儀、光譜儀、質譜儀乃至加速器、射電望遠鏡相繼出現,成為人類認識外部世界的有力工具。這些技術裝備產生的數據成為近現代思想的新的依託。到了當代,伴隨著電子計算機的強大數據處理能力的出現,各種延伸和闊展人類感官感知能力的器皿設備層出不窮,終於完全或接近於完全取代人類對外部世界的直接感知,通過把數據呈現給人類,成為人類認識的來源。這就是大數據的時代。
關鍵點在於,我們所知的世界,全部是數據表達的,其中一部分獲得理解和解釋,更多的只是數據,沒有得到解釋甚至沒有得到關注,它只是像自在自然那樣在那裡,等待人們去搜索發現它,解釋它,運用它。
數據與本體
根據上述認識,似乎可以通過觀察數據的形成和生產,來理解哲學與科學的在解釋客觀自然議題上彼此消長。
在近代科學初興時期,它並沒有從傳統哲學中分離出來,它被冠之以自然哲學。與之相並行不悖的,有哲學本體論和形而上學。後兩者都是試圖以某些觀念描述和解釋外部自然,尋求事物的本質,並在哲學領域合法存在。伽利略、牛頓等人推崇的使用先進觀測和實驗手段觀察與調控自然,用數學述說自然過程。當這一切成為風氣之後,哲學本體論逐漸衰退,哲學似乎放棄了對客觀世界的描驀和解釋,讓位於自然科學。
最後一位試圖運用科學數據來解釋自然的哲學家是康德,他研習了牛頓的運動力學和天體力學,提出宇宙演化學說。然而,拉普拉斯在康德基礎上,用物理理論和數學表述了星雲說,在無限時空中的恆星和星系演化學說。拉普拉斯之後,科學之描摹自然優越於傳統哲學得到公認。
一般認為,在經典科學時代,哲學與科學在描摹自然方面的差異,在於是否運用數據和使用數學方法。今天我們發現,這並非全部問題所在。經典時代,直至大數據崛起的今天,自然科學的確在使用各種技術裝備獲得的數據方面占據優勢地位,哲學則固守傳統的概念分析和一般推理方法,這還是指的好的哲學。這與其說是哲學落後於科學,勿寧說人類獲得數據的能力尚有不逮,給傳統哲學留有施展餘地。
大數據的出現,包圍了人類認知世界的所有方面,情況發生變化。在科學界開始討論並實施「計算一切」的時候,同時也給哲學重新回到討論本體打開方便之門。這里發生的變化是,數據成為認知的源泉,思維的質料;我們對世界的解釋轉變為對數據的解讀,舍此無他。大數據的出現,使得我們發現,我們所知的稱作外部世界的東西,是通過數據來呈現的,當我們尋求世界的本質和意義時,我們實際上是在數據中徜徉;當我們覺得有所發現有所體悟時,實際上是自覺找到了一些數據之間的關聯。
數據的物理學氣質
所謂物理學氣質,指的是思考事物的本質,從原理層面上對事物的本質進行探究,揭示出事物的基本規律。當前備受熱議的數據和大數據是否具有揭示事物基本規律的功能,可能還有待於觀察,但是,數據,就其現象而言,似乎已經展示出某種物理學氣質,考察這一特性,既有利於認識數據的本質,也有利於深化對物理學的認識。
這里所說的物理學,主要指的是量子力學。
眾所周知,量子力學無論在理論上還是在應用上都獲得巨大成功,在場論、粒子物理和天體物理學研究上都扮演者基礎角色,在固體物理、半導體物理以及超導物理等應用學科上都有極出色表現。量子力學與哲學的聯系,比其他任何自然科學領域都要來得緊密,其中最重要的就是認識論問題。
量子力學發現,建立在測不準關系基礎上的認識,受到基本物理原理的限制,客觀世界原則上不可能真正被觀察到,我們只能根據物理測量結果認識世界。而測量本身形成對客觀世界的干擾,導致無法真正認清它的本來面目。所以,我們對於世界的認識,唯一來源就是測量的結果,即所謂經驗。
量子力學的這一認識原則引發將近一百年的討論,至今未能平息。
尼爾斯·玻爾認為我們必須接受量子力學給出的認識原則,承認和接受自然作出的安排,量子力學已經很好地描繪了自然;愛因斯坦則不願接受玻爾的「綏靖哲學」,他覺得一定是量子力學本身的不完備造成,人對自然的認識應該是能夠窮盡的,不可能也不應該像量子力學所描繪的那樣。
當我們回顧前述數據與大數據的認識論與本體論含義時,就明白,一直以來有關量子力學問題的爭論,本質上就是對於數據的意義的爭論。顯然,愛因斯坦不願意接受數據給出的結果,以及對於數據的解釋,而玻爾則認為數據揭示的自然正是自然本體,無論我們是不是喜歡它。
有趣的是,人們一直在爭論量子力學的測量問題,此前卻幾乎從來沒有人意識到測量的結果本身就是數據,而數據已經成為事實上的認識來源。離開數據,我們對於世界一無所知。
在這個大數據時代,當我們認識到,數據正是我們認識世界的源泉,所謂世界其實就是數據構成的,我們也會看到數據本身所具有的物理學氣質,正像量子力學所強調的那樣,世界隱藏在經驗表象背後,我們所能談論的,只是經驗本身。
以上是小編為大家分享的關於哲學如何認識大數據時代的相關內容,更多信息可以關注環球青藤分享更多干貨