導航:首頁 > 數據分析 > 大數據各省愛讀什麼書

大數據各省愛讀什麼書

發布時間:2024-01-20 14:36:47

⑴ 對即將學習大數據專業的學生有什麼建議和推薦的書籍

‍‍對於即將學習大數據專業的學生,個人認為主要取決於,自己對大數據的理解,其實很多人對大數據僅限於知道,而並非真正了解大數據,個人的主要建議就是,一定要明白什麼是數據,大數據的入門基礎,如果大數據的基本概念,都不明白,那怎麼來學習。‍‍

⑵ 大數據專業系列教材,大數據專業應該看什麼書

目前,全國高校總數477所「數據科學與大數據技術」專業,累計30所「大數據管理與應用」專業,成功高校總數超過409所。
但由於大數據專業是以軟硬體融合、數據科學和大數據技術為特色的新型復合型專業,許多高校在專業建設和人才培養方面面臨挑戰,教材選用成為許多高校的頭疼問題。
在深入調研以上情況後,清華大學博士、中國大數據應用聯盟人工智慧專家委員會主任、雲創大數據總裁劉鵬教授在業內很早就開始著手策劃,聯合國內多所高校從事一線教育科研任務的專業教師相繼擔任主編,《高級大數據人才培養叢書》
在大數據教學中,本科院校實踐教學注重系統性,偏重新技術的應用,且對工程實踐能力要求較高。
為此,劉鵬教授帶領團隊花了一年的時間編寫了《高級大數據人才培養叢書》( 《雲計算》、《大數據》、《深度學習》、《大資料庫》、《數據挖掘》、0755-0755 )
其中,《Python程序設計》多年來一直處於我國計算機圖書被引量的前列,據網路微信公眾號( cnkipj ) 《大數據可視化》的評價,2010年至2014年《大數據實驗手冊》
《大數據應用人才培養系列教材》( 《虛擬化與容器》、《雲計算》、《【工學】高被引圖書前三甲,你讀過嗎?》、《雲計算》、《大數據導論》、0755-79055- )
內容從簡單到復雜,既遵循理論到實踐的學習過程,也遵循系統而廣的原則。
清華大學出版社王編輯說:「劉鵬教授的這個教材選題很獨特,考慮到未來高職高專大數據人才的就業需求,他選擇了一個非常有特色的選題。

從業內高校的大數據教材來看,理論知識過於復雜高深,與教學實際不契合,或者實踐部分過於簡略,學生學完往往也會感到一頭霧水。
《高級大數據人才培養叢書》和《大數據應用人才培養系列教材》大相徑庭,符合教師教育實際和學生實踐實驗,一經推出,就受到高校的廣泛關注和採用。
師生們普遍對它給予了很高彎梁的評價。 ——不僅與教學實際相符,理論部分和實踐部分比例分配合理,大量實驗提高了學生動手能力,大數據學習不再是「紙上談兵」。
大數據教育特別注重實踐,除了兩套教材外,針對目前大數據教育實踐教學中師資力量不足、實驗環境薄弱、實驗數據缺乏等問題,劉鵬教授帶領雲創大數據技術團隊,與備受高中老師好評的教師教育和教材進行了配套
師資培訓
三年來,雲創大數據(工信部教育與考試中心授權的「工業和信息化人才培養工程訓練基地」)連續舉辦了幾十期大數據/人工智慧實戰培訓班,培訓班全部採用實習方式,大大提高了參訓老師的實戰能力,各期訓練有求必應
全國2000多所虧棗高校的5000多名老師能夠參加並接受培訓,老師們普遍反饋,對未來的教育和人才培養方面有很大啟發,雲創舉辦的大數據實戰培訓班也在教育領域引起了強烈反響。
此外,雲創大數據優秀講師和技術人員還將定期或不定期赴合作高校開展包括教育、實驗人員教育指導在內的培訓服務。
2016年12月-2017年1月,多次舉辦高中(高職)大數據教師免費培訓班
2017年1月,百所高中老師齊聚二期高中(高職)大數據教師免埋空運費培訓班
2017年4月,全國千所高校大數據教師免費講習班在南京舉行
2018年5月,2018信息技術新工科產學研聯盟大數據技術師資培訓班舉辦
2018年9-10月,第二屆全國高校大數據人工智慧教師實戰免費培訓班舉辦三期
2019年1月,2019年全國高校大數據人工智慧師資培訓實戰免費培訓班連續舉辦兩期
2019年3月,2019大數據人工智慧師資培訓班在南京舉辦
2019年6月,2019雲計算免費培訓班在南京舉辦
2019年7月,2019年全國高校大數據人工智慧師資培訓實戰免費培訓班(第三期)舉辦
雲創大數據持續的大數據實戰訓練,一方面為高中老師提供了與專家討論、同事交流、向實戰經驗豐富的講師學習的機會,另一方面也一步步突破了Hadoop、Spark、Python語言、Scala等多個大數據實驗
大數據實驗室
大數據實驗室建設方案基於雲提供的大數據實驗一體化計算機和大數據實驗平台建設,採用Docker容器技術,為用戶提供大數據實驗服務,實現大量用戶同時在線實驗避免相互干擾,同時提供實驗手冊、課程資源、教學視頻、考試系統等,方便高校師生在平台上開展大數據教學和實驗。
今年5月,大數據實驗平台再次迎來更新,改版用戶界面,優化系統資源使用,增加實驗內容,豐富實驗形式,擴充題庫,完善教材與實驗內容的映射,增錄實驗操作視頻集成了商業智能實踐教學子系統,基礎鏡像速度也得到了極大優化,一鍵營造環境只需十幾秒鍾。
目前,大數據實驗平台已更新為400個大數據實驗。
操作簡便,實戰效果顯著,大數據實驗平台依託貴州大學、西北工業大學、山東理工大學、鄭州大學、河南農業大學、成都理工大學、西南大學、重慶師范大學、重慶工商大學、陝西師范大學、寧夏大學、南京財經大學、金陵科技學院、天津農學院、鄭州升達經貿管理學院
值得一提的是,鄭州升達經貿管理學院作為民辦三大高校,自天驕數據實驗平台落地以來,在課堂教學、實驗拓展、課程體系建設等諸多方面屢創新成果。
目前,大數據實驗室是該校利用率最高的實驗室,一直排到周日。
這所學校信息工程學院的計算機科學和軟體工程兩個專業分別有250名學生和學院其他專業的800多名學生在這個平台上接受了嚴格的訓練。
使用該平台畢業的學生工資水平遠遠超過普通專業大學畢業生,直接帶動了學生就業率和學校影響力的同步提高。
無論是教材體系、師資培訓,還是大數據實驗室建設,雲創大數據都在教育領域穩步發展,擁有雄厚的技術優勢和優質資源。
熱忱歡迎廣大高校、教育機構及各企事業單位與雲創業開展多方面交流合作,共同探討大數據建設相關領域,培養越來越多大數據優秀人才,為行業發展作出貢獻。
要獲取《高級大數據人才培養叢書》、《大數據應用人才培養系列教材》配套PPT、人工智慧人才培養方案大數據、人工智慧實驗室建設方案大數據、雲創大數據合作工作手冊等資源,可通過以下方式之一獲取
2 .關注「雲創大數據( cStor_cn )」,在微信後台回復「PPT」,獲取網盤全套資源下載鏈接

自考/成考有疑問、不知道自考/成考考點內容、不清楚當地自考/成考政策,點擊底部咨詢官網老師,免費領取復習資料:https://www.87dh.com/xl/

⑶ 大數據入門書籍有哪些

當年互聯網瘋狂發展的時候,很多人在觀望和猶豫中錯過了這班順風車(沒有盡早開個淘寶店,腸子都悔青了好幾遍呢)。如今,同樣的橋段上演,大數據時代,堅決不能再無動於衷!
於是,你著急,你迷茫,你很方……除了平時要加班加點的搬磚,牙縫里擠出來的的閑碎時間都貢獻給度娘了,「小白如何學習大數據」,「大數據入門書籍有哪些」……
1:<大數據時代>
這是學習大數據必讀的一本書,也是最系統的關於大數據概念的一本書,由維克托·邁爾-舍恩伯格和肯尼斯·庫克耶編寫,主要介紹了大數據理念和生活工作及思維變革的關系。
它被包括寬頻資本董事長田朔寧、知名IT評論人謝文等專業讀者鑒定為「大數據領域最好的著作沒有之一,一本頂一萬本」。有這么好嗎?看完自己評價吧。這本書對這個大規模產生、分享和應用數據的新的大時代進行了闡述和釐清,作者圍繞「要全體不要抽樣、要效率不要絕對精確、要相關不要因果」三大理念,通過數十個商業和學術案例,剖析了萬事萬物數據化和數據復用挖掘的巨大價值。
2:<爆發>
由巴拉巴西編寫,主要講了在一個歷史故事的連續講述中,了解大數據的概念實質。從大數據的歷史開始,能更深入的了解大數據的發展歷程。
巴拉巴西整本書講述的大數據根本目的,是預測。他甚至有零有整地判斷,人類行為93%是可以預測的。打個比方,千百年前人類無法如今天般准確預測天氣,以致某些大致預測的行為都被認為是「通神」,其實核心在於對天氣數據的海量佔有和分析能力。但假如全人類的所有基礎及行為數據全部被佔有全部能分析呢?比如通過智能終端LBS功能採集全部運動軌跡、通過金融系統採集所有支付記錄、通過SNS採集所有社會關系和通過郵件、文檔、社會視頻監控和自我視頻監測採集所有言行記錄,24小時,每分每秒,一生,全地球70億人,那會如何?
3:<大數據>
由徐子沛編寫,看美國政府在大數據開放上的進程與反復,算是個案。如果能夠基本了解這三本的觀點,出門有底氣,見人腰桿直,不再被忽悠。
全書講述的,是大數據在美國政府管理中的應用,以及美國政府運行方式大數據變革的歷史與斗爭,其實也是故事性的。從奧巴馬上台就頒布《信息公開法案》,到設立第一個美國政府首席信息官開始,講述美國政府與民間在社會數據公開的斗爭史,以及美國社會管理向大數據思維轉變的過程。首先,這算是一個最詳實的案例;其次,這代表的不是某種管理方式變革,深處是對民主運行機制的變革與進步。說好了,這本書用心良苦,遠遠超越科普技術領域;說壞了,其心可誅。有一段,民間斗爭,逼迫奧巴馬公布所有每日白宮全部日程,包括接見了誰、談話的全部內容,這不就是個人大數據全公開在公眾人物上的應用嗎?這可比現在所謂官員公開財產的要求高了幾十倍——這要求政府全部行為、全部數據、全部公開,全體公眾隨時可查——技術和成本上其實已經可以做到或至少努力接近——如果不這么做,不止是落後問題而是真正的其心可誅了。
4:<大數據基礎與應用>
由陳明編寫。看名字就知道,入門級別拯救小白的書。這本書共17章,第1章是對大數據的簡單概述,第2章介紹大數據研究的方法論,第3、8、9、14章介紹大數據的生態環境,第17章介紹數據科學的內容,剩下的章節是本書重點,介紹大數據技術及應用方法。
身處大數據大環境下,身邊的人經常討論資料庫、數據可視化、大數據預處理等等。這些詞聽得多了會讓人產生錯覺——自己已經知道裡面的門道了。但事實上還是個「門外漢」。
舉個例子,沒有人肯在上千人規模的講座上專門花半個小時教你怎樣進行數據清洗。本書專門列了一章,詳細介紹大數據預處理技術,包括數據清洗的實現方式,從步驟到檢驗,都做了用心的闡述。諸如此類,數據挖掘、大數據流式計算、Hadoop、NoSQL等等都從最基礎的點做了詳細介紹。耐心看完這些,再往深處進階就不會那麼吃力了。
5:<一本書讀懂大數據>
進入大數據時代,讓數據開口說話將成為司空見慣的事情,本書將從大數據時代的前因後果講起,全面分析大數據時代的特徵、企業實踐的案例、大數據的發展方向、未來的機遇和挑戰等內容,展現一個客觀立體、自由開放的大數據時代。
5:<集體智慧編程>
入門,淺顯易懂,裡面每一章都是一個案例,但是很方便,有具體的代碼,用來入門最好。
6:<社交網路的數據挖掘>
專門做社交網路的數據挖掘,案例很豐富,有代碼。
7:<數據可視化之美>
致力於介紹各種可視化方案。
8:<鮮活的數據>
比較簡單的可視化,不過內容豐富,有代碼。
9:<數據挖掘導論完整版>
看完上述的書,對大數據產生很大的興趣,已經初步入門了,現在開始理論方面的學習,數據挖掘入門教程,個人覺得寫的很好,目前正在研究這本書,努力。。。
10:<統計學習方法>
這本書比較深,剛開始看的就是這一本,不過太深,看到一半,准備在導論看完之後,在看這本書提升一下自己。
11:<鳥哥私房菜—基礎篇>
作為一個計算機專業linux那是必學的,而且Hadoop是建立在Linux基礎上的,不求多麼的精通,但是基礎的操作要學會。
如果是沒有任何編程語言基礎的想入行大數據的話,是必須要學習java基礎的,雖然大數據支持很多開發語言,但是企業用的最多的還是java,接下來學習數據結構,關系型資料庫,linux系統操作,有了基礎之後,在進入大數據學習,可以給小白學習的體系。
第一階段
COREJAVA(加**的需重點熟練掌握,其他掌握)
Java基礎**
數據類型
運算符、循環
演算法
順序結構程序設計
程序結構
數組及多維數組
面向對象**
構造方法、控制符、封裝
繼承**
多態**
抽象類、介面**
常用類
集合Collection、list**
HashSet、TreeSet、Collection
集合類Map**
異常
File
文件/流**
數據流和對象流**
線程(理解即可)
網路通信(理解即可)
第二階段
數據結構
關系型資料庫
Linux系統操作
Linux操作系統概述
安裝Linux操作系統
圖形界面操作基礎
Linux字元界面基礎
字元界面操作進階
用戶、組群和許可權管理
文件系統管理
軟體包管理與系統備份
Linux網路配置
(主要掌握Linux操作系統的理論基礎和伺服器配置實踐知識,同時通過大量實驗,著重培養學生的動手能力。使學生了解Linux操作系統在行業中的重要地位和廣泛的使用范圍。在學習Linux的基礎上,加深對伺服器操作系統的認識和實踐配置能力。加深對計算機網路基礎知識的理解,並在實踐中加以應用。掌握Linux操作系統的安裝、命令行操作、用戶管理、磁碟管理、文件系統管理、軟體包管理、進程管理、系統監測和系統故障排除。掌握Linux操作系統的網路配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務的配置與管理。為更深一步學習其它網路操作系統和軟體系統開發奠定堅實的基礎。與此同時,如果大家有時間把javaweb及框架學習一番,會讓你的大數據學習更自由一些)
重點掌握:
常見演算法
資料庫表設計
SQL語句
Linux常見命令
第三階段
Hadoop階段
離線分析階段
實時計算階段
重點掌握:
Hadoop基礎
HDFS
MapRece
分布式集群
Hive
Hbase
Sqoop
Pig
Storm實時數據處理平台
Spark平台
若之前沒有項目經驗或JAVA基礎,掌握了第一階段進入企業,不足以立即上手做項目,企業需再花時間與成本培養;
第二階段掌握扎實以後,進入企業就可以跟著做項目了,跟著一大幫人做項目倒也不用太擔心自己能不能應付的來,當然薪資不能有太高的要求;
前兩個階段都服務於第三階段的學習,除了熟練掌握這些知識以外,重點需要找些相應的項目去做,不管項目大小做過與沒有相差很多的哦!掌握扎實後可直接面對企業就業,薪資待遇較高!

⑷ 初學者學習資料庫該看什麼書

1、《資料庫系統概論(第5版)》作者:王珊/薩師煊這本書是資料庫理論知識的經典教材,零基礎入門必看。

2、《資料庫系統概念(原書第6版)》作者:Abraham Silberschatz/Henry F.Korth/S.Sudarshan國外經典資料庫理論書籍,有助於深入理解資料庫知識,從原理和實用的角度入手,涵蓋了資料庫領域諸多知識面。

3、《分布式資料庫系統原理(第3版)》作者:M.Tamer Ozsu/Patrick Valriez這本書主要介紹分布式資料庫管理系統的基本概念、基本理論和設計問題,涵蓋了分布式資料庫系統的設計、實現和管理,有助於深入理解分布式資料庫系統。

4、《資料庫系統實現(第2版)》作者:Hector Garcia-Molina,Jeffrey D.Ullman資料庫內核研發人員的必讀書籍,有助於深入理解資料庫內部實現的原理,包括存儲管理器、查詢處理器和事務管理器等。

關於初學者學習資料庫該看什麼書,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

⑸ 讀《大數據時代》心得體會

讀《大數據時代》心得體會(一)

讀了《大數據時代》後,感覺到一個大變革的時代將要來臨。雖然還不怎麼明了到底要徹底改變哪些思維和操作方式,但顯然作者想要“終結”或顛覆一些傳統上作為我們思維和生存基本理論、方法和方式。在這樣的想法面前,我的思想被強烈震撼,不禁戰栗起來。

“在小數據時代,我們會假象世界是怎樣運作的,然後通過收集和分析數據來驗證這種假想。”“隨著由假想時代到數據時代的過渡,我們也很可能認為我們不在需要理論了。”書中幾乎肯定要顛覆統計學的理論和方法,也試圖通過引用《連線》雜志主編安德森的話“量子物理學的理論已經脫離實際”來“終結”量子力學。對此我很高興,因為統計學和量子力學都是我在大學學習時學到抽筋都不能及格的課目。但這兩個理論實在太大,太權威,太基本了,我想我不可能靠一本書就能擺脫這兩個讓我頭疼一輩子的東西。作者其實也不敢旗幟鮮明地提出要顛覆它們的論點,畢竟還是在前面加上了“很可能認為”這樣的保護傘。

近幾十年,我們總是在遇到各種各樣的新思維。在新思維面前我們首先應該做到的就是要破和立,要改變自己的傳統,跟上時代的腳步。即使腦子還跟不上,嘴巴上也必須跟上,否則可能會被扣上思想僵化甚至阻礙世界發展的大帽子。既然大數據是“通往未來的必然改變”,那我就必須“不受限於傳統的思維模式和特定領域里隱含的固有偏見”,跟作者一起先把統計學和量子力學否定掉再說。反正我也不喜歡、也學不會它們。

當我們人類的數據收集和處理能力達到拍位元組甚至更大之後,我們可以把樣本變成全部,再加上有能力正視混雜性而忽視精確性後,似乎真的可以拋棄以抽樣調查為基礎的統計學了。但是由統計學和量子力學以及其他很多“我們也很可能認為我們不再需要的”理論上溯,它們幾乎都基於一個共同的基礎——邏輯。要是不小心把邏輯或者邏輯思維或者邏輯推理一起給“不再需要”的話,就讓我很擔心了!

《大數據時代》第16頁“大數據的核心就是預測”。邏輯是——描述時空信息“類”與“類”之間長時間有效不變的先後變化關系規則。兩者似乎是做同一件事。可大數據要的“不是因果關系,而是相關關系”,“知道是什麼就夠了,沒必要知道為什麼”,而邏輯學四大基本定律(同一律、矛盾律、排中律和充足理由律)中的充足理由律又“明確規定”任何事物都有其存在的充足理由。且邏輯推理三部分——歸納邏輯、溯因邏輯和演繹邏輯都是基於因果關系。兩者好像又是對立的。在同一件事上兩種方法對立,應該只有一個結果,就是要否定掉其中之一。這就是讓我很擔心的原因。

可我卻不能拭目以待,像旁觀者一樣等著哪一個“脫穎而出”,因為我身處其中。問題不解決,我就沒法思考和工作,自然就沒法活了!更何況還有兩個更可怕的事情。

其一:量子力學搞了一百多年,為了處理好混雜性問題,把質量和速度結合到能量上去了,為了調和量子力學與相對論的矛盾,又搞出一個量子場論,再七搞八搞又有了蟲洞和羅森橋,最後把四維的時空彎曲成允許時間旅行的樣子,恨不得馬上造成那可怕的時間旅行機器。唯一阻止那些“愛因斯坦”們“瞎胡鬧”的就是因果關系,因為爸爸就是爸爸,兒子就是兒子。那麼大數據會不會通過正視混雜性,放棄因果關系最後反而搞出時間機器,讓爸爸不再是爸爸,兒子不再是兒子了呢?其二:人和機器的根本區別在於人有邏輯思維而機器沒有。《大數據時代》也擔心“最後做出決策的將是機器而不是人”。如果真的那一天因為放棄邏輯思維而出現科幻電影上描述的機器主宰世界消滅人類的結果,那我還不如現在就趁早跳樓。

還好我知道自己對什麼統計學、量子力學、邏輯學和大數據來說都是門外漢,也許上面一大篇都是在胡說八道,所謂的擔心根本不存在。但問題出現了,還是解決的好,不然沒法睡著覺。自己解決不了就只能依靠專家來指點迷津。

所以想向《大數據時代》的作者提一個合理化建議:把這本書繼續寫下去,至少加一個第四部分——大數據時代的邏輯思維。

讀《大數據時代》心得體會(二)

信息時代的到來,我們感受到的是技術變化日新月異,隨之而來的是生活方式的轉變„„我們這樣評論著的信息時代已經變為曾經。如今,大數據時代成為炙手可熱的話題。筆者在這說明信息和數據,只是試圖首先說明信息、數據的關系和不同,也試圖說明,為什麼信息時代轉變為了大數據時代?大數據時代帶給了我們什麼?

信息和數據的定義。維基網路解釋:信息,又稱資訊,是一個高度概括抽象概念,是一個發展中的動態范疇,是進行互相交換的內容和名稱,信息的界定沒有統一的定義,但是信息具備客觀、動態、傳遞、共享、經濟等特性卻是大家的共識。數據:或稱資料,指描述事物的符號記錄,是可定義為意義的實體,它涉及到事物的存在形式。它是關於事件之一組離散且客觀的事實描述,是構成信息和知識的原始材料。數據可分為模擬數據和數字數據兩大類。數據指計算機加工的“原料”,如圖形、聲音、文字、數、字元和符號等。從定義看來,數據是原始的處女地,需要耕耘。信息則是已經處理過的可以傳播的資訊。信息時代依賴於數據的爆發,只是當數據爆發到無法駕馭的狀態,大數據時代應運而生。這是否是《大數據時代》一書所未曾闡述的背景材料?

在《大數據時代》一書中,大數據時代與小數據時代的區別:1、思維慣例。大數據時代區別與轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道“是什麼”,而不需要知道“為什麼”。作者語言絕對,卻反思其本質區別。數據的更多、更雜,導致應用主意只能盡量觀察,而不是傾其所有進行推理?這也是明智之舉2、使用用途。小數據停留在說明過去,大數據用驅動過去來預測未來。筆者認為數據的用途意在何為,與數據本身無關,而與數據的解讀者有關,而相關關系更有利於預測未來。3、結構。大數據更多的體現在海量非結構化數據本身與處理方法的整合。大數據更像是理論與現實齊頭並進,理論來創立處理非結構化數據的方法,處理結果與未來進行驗證。4、分析基礎。大數據是在互聯網背景下數據從量變到質變的過程。筆者認為,小數據時代也即是信息時代,是大數據時代的前提,大數據時代是升華和進化,本質是相輔相成,而並非相離互斥。

數據未來的故事。數據的發展,給我們帶來什麼預期和啟示?銀行業天然有大數據的潛質。客戶數據、交易數據、管理數據等海量數據不斷增長,海量機遇和挑戰也隨之而來,適應變革,適者生存。我們可以有更廣闊的業務發展空間、可以有更精準的決策判斷能力、可以有更優秀的經營管理能力„„可以這些都基於數據的收集、整理、駕馭、分析能力,基於脫穎而出的創新思維和執行。因此,建設“數據倉庫”,培養“數據思維”,養成“數據治理”,創造“數據融合”,實現“數據應用”才能擁抱“大數據”時代,從數據中攫取價值,笑看風雲變換,穩健贏取未來。

讀《大數據時代》心得體會(三)

這本書里主要介紹的是大數據在現代商業運作上的應用,以及它對現代商業運作的影響。

《大數據時代》這本書的結構框架遵從了學術性書籍的普遍方式。也既,從現象入手,繼而通過對現象的解剖提出對這一現象的解釋。然後在通過解釋在對未來進行預測,並對未來可能出現的問題提出自己看法與對策。

下面來重點介紹《大數據時代》這本書的主要內容。

《大數據時代》開篇就講了Google通過人們在搜索引擎上搜索關鍵字留下的數據提前成功的預測了20XX年美國的H1N1的爆發地與傳播方向以及可能的潛在患者的事情。Google的預測比政府提前將近一個月,相比之下政府只能夠在流感爆發一兩個周之後才可以弄到相關的數據。同時Google的預測與政府數據的相關性高達97%,這也就意味著Google預測數據的置信區間為3%,這個數字遠遠小於傳統統計學上的常規置信區間5%!而這個數字就是大數據時代預測結果的相對准確性與事件的可預測性的最好證明!通過這一事以及其他的案例,維克托提出了在大數據時代“樣本=總體”的思想。我們都知道當樣本無限趨近於總體的時候,通過計算得到的描述性數據將無限的趨近於事件本身的性質。而之前採取的“樣本<總體”的做法很大程度上無法做到更進一步的描述事物,因為之前的時代數據的獲取與存儲處理本身有很大的難度只導致人們採取抽樣的方式來測量事物。而互聯網終端與計算機的出現使數據的獲取、存儲與處理難度大大降低,因而相對准確性更高的“樣本=總體”的測算方式將成為大數據時代的主流,同時大數據時代本身也是建立在大批量數據的存儲與處理的基礎之上的。

接下來,維克多又通過了IBM追求高精確性的電腦翻譯計劃的失敗與Google只是將所有出現過的相應的文字語句掃描並儲存在詞庫中,所以無論需要翻譯什麼,只要有聯系Google詞庫就會出現翻譯,雖然有的時候的翻譯很無厘頭,但是大多數時候還是正確的,所以Google的電腦翻譯的計劃的成功,表明大數據時代對准確性的追求並不是特別明顯,但是相反大數據時代是建立在大數據的基礎住上的,所以大數據時代追求的是全方位覆蓋的數字測度而不管其准確性到底有多高,因為大量的數據會湮埋少數有問題的數據所帶來的影響。同時大量的數據也會無限的逼近事物的原貌。

之後,維克托又預測了一個在大數據時代催生的重要職業——數據科學家,這是一群數學家、統計學與編程家的綜合體,這一群人將能夠從獲取的數據中得到任何他們想要的結果。換言之,只要數據充足我們的一切外在的與內在的我們不想讓他人知道的東西都見會在這一群傢伙的面前展現得淋漓盡致。所以為了避免個人隱私在大數據時代被這一群人利用,維克托建議將這一群人分為兩部分,一部分使用數據為商業部門服務,而另一群人則負責審查這一些人是否合法的獲得與應用數據,是否侵犯了個人隱私。

無論如何,大數據時代將會到來,不管我們接受還是不接受!

我覺得《大數據時代》這本書寫的很好,很值得一讀。因為會給我們很多啟發,比如你在相關的社交網站發表的言論或者照片都很有可能被“數據科學家”們利用,從而再將相關數據賣給各大網店。不過,事實就是我們將會成為被預測被引誘的對象。所以說,小心你在網上留下的痕跡。

我喜歡這本書是因為它給我展現了一個新的世界。

讀《大數據時代》心得體會(四)

利用周末,一口氣讀完了塗子沛的大作《大數據》。這本書很好看,行文如流水,引人入勝。書中,你讀到的不是大數據技術,更多是與大數據相關的美國政治、經濟、社會和文化的演進。作為一名信息化從業者,讀完全書,我深刻感受到了在信息化方面中國與美國的各自特色,也看到了我們與美國的差距。有幾個方面的體會,但窺一斑基本能見全貌。

一是政府業務資料庫公開的廣度和深度。近年來,隨著我國信息公開工作的推進,各級政府都在通過政府門戶網站建設積極推進網上政務信息公開,但我們的信息公開,現階段還主要是政府的政策、法律法規、標准、公文通告、工作職責、辦事指南、工作動態、人事任免等行政事務性信息的公開。當然,實時的政府業務資料庫公開也已經取得很大進步。在中國政府門戶網,可以查詢一些公益資料庫,如國家統計局的經濟統計數據、環保部數據中心提供的全國空氣、水文等數據,氣象總局提供的全國氣象數據,民航總局提供的全國航班信息等;訪問各個部委的網站,也能查到很多業務數據,如發改委的項目立項庫、工商局的企業信用庫、國土資源部的土地證庫、國家安監總局的煤礦安全預警信息庫、各類工程招標信息庫等等。這是一個非常大的進步,也是這么多年電子政務建設所取得的成效和價值!但是,政務業務資料庫中的很多數據目前還沒有實現公開,很多數據因為部門利益和“保密”等因素,還僅限於部門內部人員使用,沒有公開給公眾;已經公開的數據也僅限於一部分基本信息和統計信息,更多數據還沒有被公開。從《大數據》一書中記錄的美國數據公開的實踐來看,美國在數據公開的廣度和深度都比較大。美國人認為“用納稅人的錢收集的數據應該免費提供給納稅人使用”,盡管美國政府事實上對數據的公開也有抵觸,但民願不可違,美國政府的業務數據越來越公開,尤其是在奧巴馬政府簽署《透明和開放的政府》文件後,開放力度更加大。DATA.GOV是美國聯盟政府新建設的統一的數據開放門戶網站,網站按照原始數據、地理數據和數據應用工具來組織開放的各類數據,累積開放378529個原始和地理數據集。在中國尚沒有這樣的數據開放的網站。另外,由於制度的不同,美國業務信息公開的深度也很大,例如,網上公布的美國總統“白宮訪客記錄”公布的甚至是造訪白宮的各類人員的相關信息;美國的FedSpending網站,能夠逐條跟蹤、記錄、分析聯邦政府每一筆財政支出。這在中國,目前應該還沒有實現。

二是對政府對業務數據的分析。目前,中國各級政府網站所提供的業務數據基本上還是數據表,部分網站能提供一些統計圖,但很少能實現數據的跨部門聯機分析、數據關聯分析。這主要是由於以往中國政務信息化的建設還處於部門建設階段。美國在這方面的步伐要快一些,美國的DATA.GOV網站,不僅提供原始數據和地理數據,還提供很多數據工具,這些工具很多都是公眾、公益組織和一些商業機構提供的,這些應用為數據處理、聯機分析、基於社交網路的關聯分析等方面提供手段。如DATA.GOV上提供的白宮訪客搜索工具,可以搜尋到訪客信息,並將白宮訪客與其他微博、社交網站等進行關聯,提高訪客的透明度。

三是關於個人數據的隱私。在美國,公民的隱私和自有不可侵犯,美國沒有個人身份證,也不能建立基於個人身份證號碼的個人信息的關聯,建立“中央數據銀行”的提案也一再被否決。這一點,在中國不是問題,每個公民有唯一的身份信息,通過身份證信息,可以獲取公民的基本信息。今後,隨著國家人口基礎資料庫等基礎資源庫的建設,公民的社保、醫療等其他相關信息也能方便獲取,當然信息還是限於政府部門使用,但很難完全保證整合起來的這些個人信息不被泄露或者利用。

數據是信息化建設的基礎,兩個大國在大數據領域的互相學習和借鑒,取長補短,將推進世界進入信息時代。我欣喜地看到,美國政府20XX年啟動了“大數據研發計劃”,投資2億美元,推動大數據提取、存儲、分析、共享、可視化等領域的研究,並將其與超級計算和互聯網投資相提並論。同年,中國政府20XX年也批復了“十二五國家政務信息化建設工程規劃”,總投資額估計在幾百億,專門有人口、法人、空間、宏觀經濟和文化等五大資源庫的五大建設工程。開放、共享和智能的大數據的時代已經來臨!

我精心推薦

閱讀全文

與大數據各省愛讀什麼書相關的資料

熱點內容
iphone6無法備份應用 瀏覽:650
百度雲下載的文件在哪ipad 瀏覽:586
全球通58元套餐升級 瀏覽:976
音頻文件加到word 瀏覽:572
表格數據如何整列求和 瀏覽:573
寬頻升級外線 瀏覽:573
一根數據線多少錢oppo 瀏覽:622
費用較高的網路類型是 瀏覽:570
怎麼查看一個網站的後台 瀏覽:967
核桃編程有什麼用處 瀏覽:796
如何用文本把數據導入列印系統 瀏覽:629
電信5s3g能升級4g嗎 瀏覽:153
linux內核缺頁異常 瀏覽:258
word2010取消畫布 瀏覽:943
javajframe更新界面 瀏覽:63
機械硬碟u盤放不進4g文件 瀏覽:81
linux下如何復制黏貼 瀏覽:479
蘋果安裝ipa文件 瀏覽:757
5sqq分享視頻文件 瀏覽:67
華為各版本系統 瀏覽:145

友情鏈接