⑴ 对即将学习大数据专业的学生有什么建议和推荐的书籍
对于即将学习大数据专业的学生,个人认为主要取决于,自己对大数据的理解,其实很多人对大数据仅限于知道,而并非真正了解大数据,个人的主要建议就是,一定要明白什么是数据,大数据的入门基础,如果大数据的基本概念,都不明白,那怎么来学习。
⑵ 大数据专业系列教材,大数据专业应该看什么书
目前,全国高校总数477所“数据科学与大数据技术”专业,累计30所“大数据管理与应用”专业,成功高校总数超过409所。
但由于大数据专业是以软硬件融合、数据科学和大数据技术为特色的新型复合型专业,许多高校在专业建设和人才培养方面面临挑战,教材选用成为许多高校的头疼问题。
在深入调研以上情况后,清华大学博士、中国大数据应用联盟人工智能专家委员会主任、云创大数据总裁刘鹏教授在业内很早就开始着手策划,联合国内多所高校从事一线教育科研任务的专业教师相继担任主编,《高级大数据人才培养丛书》
在大数据教学中,本科院校实践教学注重系统性,偏重新技术的应用,且对工程实践能力要求较高。
为此,刘鹏教授带领团队花了一年的时间编写了《高级大数据人才培养丛书》( 《云计算》、《大数据》、《深度学习》、《大数据库》、《数据挖掘》、0755-0755 )
其中,《Python程序设计》多年来一直处于我国计算机图书被引量的前列,据网络对微信公众号( cnkipj ) 《大数据可视化》的评价,2010年至2014年《大数据实验手册》
《大数据应用人才培养系列教材》( 《虚拟化与容器》、《云计算》、《【工学】高被引图书前三甲,你读过吗?》、《云计算》、《大数据导论》、0755-79055- )
内容从简单到复杂,既遵循理论到实践的学习过程,也遵循系统而广的原则。
清华大学出版社王编辑说:“刘鹏教授的这个教材选题很独特,考虑到未来高职高专大数据人才的就业需求,他选择了一个非常有特色的选题。
”
从业内高校的大数据教材来看,理论知识过于复杂高深,与教学实际不契合,或者实践部分过于简略,学生学完往往也会感到一头雾水。
《高级大数据人才培养丛书》和《大数据应用人才培养系列教材》大相径庭,符合教师教育实际和学生实践实验,一经推出,就受到高校的广泛关注和采用。
师生们普遍对它给予了很高弯梁的评价。 ——不仅与教学实际相符,理论部分和实践部分比例分配合理,大量实验提高了学生动手能力,大数据学习不再是“纸上谈兵”。
大数据教育特别注重实践,除了两套教材外,针对目前大数据教育实践教学中师资力量不足、实验环境薄弱、实验数据缺乏等问题,刘鹏教授带领云创大数据技术团队,与备受高中老师好评的教师教育和教材进行了配套
师资培训
三年来,云创大数据(工信部教育与考试中心授权的“工业和信息化人才培养工程训练基地”)连续举办了几十期大数据/人工智能实战培训班,培训班全部采用实习方式,大大提高了参训老师的实战能力,各期训练有求必应
全国2000多所亏枣高校的5000多名老师能够参加并接受培训,老师们普遍反馈,对未来的教育和人才培养方面有很大启发,云创举办的大数据实战培训班也在教育领域引起了强烈反响。
此外,云创大数据优秀讲师和技术人员还将定期或不定期赴合作高校开展包括教育、实验人员教育指导在内的培训服务。
2016年12月-2017年1月,多次举办高中(高职)大数据教师免费培训班
2017年1月,百所高中老师齐聚二期高中(高职)大数据教师免埋空运费培训班
2017年4月,全国千所高校大数据教师免费讲习班在南京举行
2018年5月,2018信息技术新工科产学研联盟大数据技术师资培训班举办
2018年9-10月,第二届全国高校大数据人工智能教师实战免费培训班举办三期
2019年1月,2019年全国高校大数据人工智能师资培训实战免费培训班连续举办两期
2019年3月,2019大数据人工智能师资培训班在南京举办
2019年6月,2019云计算免费培训班在南京举办
2019年7月,2019年全国高校大数据人工智能师资培训实战免费培训班(第三期)举办
云创大数据持续的大数据实战训练,一方面为高中老师提供了与专家讨论、同事交流、向实战经验丰富的讲师学习的机会,另一方面也一步步突破了Hadoop、Spark、Python语言、Scala等多个大数据实验
大数据实验室
大数据实验室建设方案基于云提供的大数据实验一体化计算机和大数据实验平台建设,采用Docker容器技术,为用户提供大数据实验服务,实现大量用户同时在线实验避免相互干扰,同时提供实验手册、课程资源、教学视频、考试系统等,方便高校师生在平台上开展大数据教学和实验。
今年5月,大数据实验平台再次迎来更新,改版用户界面,优化系统资源使用,增加实验内容,丰富实验形式,扩充题库,完善教材与实验内容的映射,增录实验操作视频集成了商业智能实践教学子系统,基础镜像速度也得到了极大优化,一键营造环境只需十几秒钟。
目前,大数据实验平台已更新为400个大数据实验。
操作简便,实战效果显著,大数据实验平台依托贵州大学、西北工业大学、山东理工大学、郑州大学、河南农业大学、成都理工大学、西南大学、重庆师范大学、重庆工商大学、陕西师范大学、宁夏大学、南京财经大学、金陵科技学院、天津农学院、郑州升达经贸管理学院
值得一提的是,郑州升达经贸管理学院作为民办三大高校,自天骄数据实验平台落地以来,在课堂教学、实验拓展、课程体系建设等诸多方面屡创新成果。
目前,大数据实验室是该校利用率最高的实验室,一直排到周日。
这所学校信息工程学院的计算机科学和软件工程两个专业分别有250名学生和学院其他专业的800多名学生在这个平台上接受了严格的训练。
使用该平台毕业的学生工资水平远远超过普通专业大学毕业生,直接带动了学生就业率和学校影响力的同步提高。
无论是教材体系、师资培训,还是大数据实验室建设,云创大数据都在教育领域稳步发展,拥有雄厚的技术优势和优质资源。
热忱欢迎广大高校、教育机构及各企事业单位与云创业开展多方面交流合作,共同探讨大数据建设相关领域,培养越来越多大数据优秀人才,为行业发展作出贡献。
要获取《高级大数据人才培养丛书》、《大数据应用人才培养系列教材》配套PPT、人工智能人才培养方案大数据、人工智能实验室建设方案大数据、云创大数据合作工作手册等资源,可通过以下方式之一获取
2 .关注“云创大数据( cStor_cn )”,在微信后台回复“PPT”,获取网盘全套资源下载链接
自考/成考有疑问、不知道自考/成考考点内容、不清楚当地自考/成考政策,点击底部咨询官网老师,免费领取复习资料:https://www.87dh.com/xl/
⑶ 大数据入门书籍有哪些
当年互联网疯狂发展的时候,很多人在观望和犹豫中错过了这班顺风车(没有尽早开个淘宝店,肠子都悔青了好几遍呢)。如今,同样的桥段上演,大数据时代,坚决不能再无动于衷!
于是,你着急,你迷茫,你很方……除了平时要加班加点的搬砖,牙缝里挤出来的的闲碎时间都贡献给度娘了,“小白如何学习大数据”,“大数据入门书籍有哪些”……
1:<大数据时代>
这是学习大数据必读的一本书,也是最系统的关于大数据概念的一本书,由维克托·迈尔-舍恩伯格和肯尼斯·库克耶编写,主要介绍了大数据理念和生活工作及思维变革的关系。
它被包括宽带资本董事长田朔宁、知名IT评论人谢文等专业读者鉴定为“大数据领域最好的著作没有之一,一本顶一万本”。有这么好吗?看完自己评价吧。这本书对这个大规模产生、分享和应用数据的新的大时代进行了阐述和厘清,作者围绕“要全体不要抽样、要效率不要绝对精确、要相关不要因果”三大理念,通过数十个商业和学术案例,剖析了万事万物数据化和数据复用挖掘的巨大价值。
2:<爆发>
由巴拉巴西编写,主要讲了在一个历史故事的连续讲述中,了解大数据的概念实质。从大数据的历史开始,能更深入的了解大数据的发展历程。
巴拉巴西整本书讲述的大数据根本目的,是预测。他甚至有零有整地判断,人类行为93%是可以预测的。打个比方,千百年前人类无法如今天般准确预测天气,以致某些大致预测的行为都被认为是“通神”,其实核心在于对天气数据的海量占有和分析能力。但假如全人类的所有基础及行为数据全部被占有全部能分析呢?比如通过智能终端LBS功能采集全部运动轨迹、通过金融系统采集所有支付记录、通过SNS采集所有社会关系和通过邮件、文档、社会视频监控和自我视频监测采集所有言行记录,24小时,每分每秒,一生,全地球70亿人,那会如何?
3:<大数据>
由徐子沛编写,看美国政府在大数据开放上的进程与反复,算是个案。如果能够基本了解这三本的观点,出门有底气,见人腰杆直,不再被忽悠。
全书讲述的,是大数据在美国政府管理中的应用,以及美国政府运行方式大数据变革的历史与斗争,其实也是故事性的。从奥巴马上台就颁布《信息公开法案》,到设立第一个美国政府首席信息官开始,讲述美国政府与民间在社会数据公开的斗争史,以及美国社会管理向大数据思维转变的过程。首先,这算是一个最详实的案例;其次,这代表的不是某种管理方式变革,深处是对民主运行机制的变革与进步。说好了,这本书用心良苦,远远超越科普技术领域;说坏了,其心可诛。有一段,民间斗争,逼迫奥巴马公布所有每日白宫全部日程,包括接见了谁、谈话的全部内容,这不就是个人大数据全公开在公众人物上的应用吗?这可比现在所谓官员公开财产的要求高了几十倍——这要求政府全部行为、全部数据、全部公开,全体公众随时可查——技术和成本上其实已经可以做到或至少努力接近——如果不这么做,不止是落后问题而是真正的其心可诛了。
4:<大数据基础与应用>
由陈明编写。看名字就知道,入门级别拯救小白的书。这本书共17章,第1章是对大数据的简单概述,第2章介绍大数据研究的方法论,第3、8、9、14章介绍大数据的生态环境,第17章介绍数据科学的内容,剩下的章节是本书重点,介绍大数据技术及应用方法。
身处大数据大环境下,身边的人经常讨论数据库、数据可视化、大数据预处理等等。这些词听得多了会让人产生错觉——自己已经知道里面的门道了。但事实上还是个“门外汉”。
举个例子,没有人肯在上千人规模的讲座上专门花半个小时教你怎样进行数据清洗。本书专门列了一章,详细介绍大数据预处理技术,包括数据清洗的实现方式,从步骤到检验,都做了用心的阐述。诸如此类,数据挖掘、大数据流式计算、Hadoop、NoSQL等等都从最基础的点做了详细介绍。耐心看完这些,再往深处进阶就不会那么吃力了。
5:<一本书读懂大数据>
进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。
5:<集体智慧编程>
入门,浅显易懂,里面每一章都是一个案例,但是很方便,有具体的代码,用来入门最好。
6:<社交网络的数据挖掘>
专门做社交网络的数据挖掘,案例很丰富,有代码。
7:<数据可视化之美>
致力于介绍各种可视化方案。
8:<鲜活的数据>
比较简单的可视化,不过内容丰富,有代码。
9:<数据挖掘导论完整版>
看完上述的书,对大数据产生很大的兴趣,已经初步入门了,现在开始理论方面的学习,数据挖掘入门教程,个人觉得写的很好,目前正在研究这本书,努力。。。
10:<统计学习方法>
这本书比较深,刚开始看的就是这一本,不过太深,看到一半,准备在导论看完之后,在看这本书提升一下自己。
11:<鸟哥私房菜—基础篇>
作为一个计算机专业linux那是必学的,而且Hadoop是建立在Linux基础上的,不求多么的精通,但是基础的操作要学会。
如果是没有任何编程语言基础的想入行大数据的话,是必须要学习java基础的,虽然大数据支持很多开发语言,但是企业用的最多的还是java,接下来学习数据结构,关系型数据库,linux系统操作,有了基础之后,在进入大数据学习,可以给小白学习的体系。
第一阶段
COREJAVA(加**的需重点熟练掌握,其他掌握)
Java基础**
数据类型
运算符、循环
算法
顺序结构程序设计
程序结构
数组及多维数组
面向对象**
构造方法、控制符、封装
继承**
多态**
抽象类、接口**
常用类
集合Collection、list**
HashSet、TreeSet、Collection
集合类Map**
异常
File
文件/流**
数据流和对象流**
线程(理解即可)
网络通信(理解即可)
第二阶段
数据结构
关系型数据库
Linux系统操作
Linux操作系统概述
安装Linux操作系统
图形界面操作基础
Linux字符界面基础
字符界面操作进阶
用户、组群和权限管理
文件系统管理
软件包管理与系统备份
Linux网络配置
(主要掌握Linux操作系统的理论基础和服务器配置实践知识,同时通过大量实验,着重培养学生的动手能力。使学生了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上,加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解,并在实践中加以应用。掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时,如果大家有时间把javaweb及框架学习一番,会让你的大数据学习更自由一些)
重点掌握:
常见算法
数据库表设计
SQL语句
Linux常见命令
第三阶段
Hadoop阶段
离线分析阶段
实时计算阶段
重点掌握:
Hadoop基础
HDFS
MapRece
分布式集群
Hive
Hbase
Sqoop
Pig
Storm实时数据处理平台
Spark平台
若之前没有项目经验或JAVA基础,掌握了第一阶段进入企业,不足以立即上手做项目,企业需再花时间与成本培养;
第二阶段掌握扎实以后,进入企业就可以跟着做项目了,跟着一大帮人做项目倒也不用太担心自己能不能应付的来,当然薪资不能有太高的要求;
前两个阶段都服务于第三阶段的学习,除了熟练掌握这些知识以外,重点需要找些相应的项目去做,不管项目大小做过与没有相差很多的哦!掌握扎实后可直接面对企业就业,薪资待遇较高!
⑷ 初学者学习数据库该看什么书
1、《数据库系统概论(第5版)》作者:王珊/萨师煊这本书是数据库理论知识的经典教材,零基础入门必看。
2、《数据库系统概念(原书第6版)》作者:Abraham Silberschatz/Henry F.Korth/S.Sudarshan国外经典数据库理论书籍,有助于深入理解数据库知识,从原理和实用的角度入手,涵盖了数据库领域诸多知识面。
3、《分布式数据库系统原理(第3版)》作者:M.Tamer Ozsu/Patrick Valriez这本书主要介绍分布式数据库管理系统的基本概念、基本理论和设计问题,涵盖了分布式数据库系统的设计、实现和管理,有助于深入理解分布式数据库系统。
4、《数据库系统实现(第2版)》作者:Hector Garcia-Molina,Jeffrey D.Ullman数据库内核研发人员的必读书籍,有助于深入理解数据库内部实现的原理,包括存储管理器、查询处理器和事务管理器等。
关于初学者学习数据库该看什么书,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
⑸ 读《大数据时代》心得体会
读《大数据时代》心得体会(一)
读了《大数据时代》后,感觉到一个大变革的时代将要来临。虽然还不怎么明了到底要彻底改变哪些思维和操作方式,但显然作者想要“终结”或颠覆一些传统上作为我们思维和生存基本理论、方法和方式。在这样的想法面前,我的思想被强烈震撼,不禁战栗起来。
“在小数据时代,我们会假象世界是怎样运作的,然后通过收集和分析数据来验证这种假想。”“随着由假想时代到数据时代的过渡,我们也很可能认为我们不在需要理论了。”书中几乎肯定要颠覆统计学的理论和方法,也试图通过引用《连线》杂志主编安德森的话“量子物理学的理论已经脱离实际”来“终结”量子力学。对此我很高兴,因为统计学和量子力学都是我在大学学习时学到抽筋都不能及格的课目。但这两个理论实在太大,太权威,太基本了,我想我不可能靠一本书就能摆脱这两个让我头疼一辈子的东西。作者其实也不敢旗帜鲜明地提出要颠覆它们的论点,毕竟还是在前面加上了“很可能认为”这样的保护伞。
近几十年,我们总是在遇到各种各样的新思维。在新思维面前我们首先应该做到的就是要破和立,要改变自己的传统,跟上时代的脚步。即使脑子还跟不上,嘴巴上也必须跟上,否则可能会被扣上思想僵化甚至阻碍世界发展的大帽子。既然大数据是“通往未来的必然改变”,那我就必须“不受限于传统的思维模式和特定领域里隐含的固有偏见”,跟作者一起先把统计学和量子力学否定掉再说。反正我也不喜欢、也学不会它们。
当我们人类的数据收集和处理能力达到拍字节甚至更大之后,我们可以把样本变成全部,再加上有能力正视混杂性而忽视精确性后,似乎真的可以抛弃以抽样调查为基础的统计学了。但是由统计学和量子力学以及其他很多“我们也很可能认为我们不再需要的”理论上溯,它们几乎都基于一个共同的基础——逻辑。要是不小心把逻辑或者逻辑思维或者逻辑推理一起给“不再需要”的话,就让我很担心了!
《大数据时代》第16页“大数据的核心就是预测”。逻辑是——描述时空信息“类”与“类”之间长时间有效不变的先后变化关系规则。两者似乎是做同一件事。可大数据要的“不是因果关系,而是相关关系”,“知道是什么就够了,没必要知道为什么”,而逻辑学四大基本定律(同一律、矛盾律、排中律和充足理由律)中的充足理由律又“明确规定”任何事物都有其存在的充足理由。且逻辑推理三部分——归纳逻辑、溯因逻辑和演绎逻辑都是基于因果关系。两者好像又是对立的。在同一件事上两种方法对立,应该只有一个结果,就是要否定掉其中之一。这就是让我很担心的原因。
可我却不能拭目以待,像旁观者一样等着哪一个“脱颖而出”,因为我身处其中。问题不解决,我就没法思考和工作,自然就没法活了!更何况还有两个更可怕的事情。
其一:量子力学搞了一百多年,为了处理好混杂性问题,把质量和速度结合到能量上去了,为了调和量子力学与相对论的矛盾,又搞出一个量子场论,再七搞八搞又有了虫洞和罗森桥,最后把四维的时空弯曲成允许时间旅行的样子,恨不得马上造成那可怕的时间旅行机器。唯一阻止那些“爱因斯坦”们“瞎胡闹”的就是因果关系,因为爸爸就是爸爸,儿子就是儿子。那么大数据会不会通过正视混杂性,放弃因果关系最后反而搞出时间机器,让爸爸不再是爸爸,儿子不再是儿子了呢?其二:人和机器的根本区别在于人有逻辑思维而机器没有。《大数据时代》也担心“最后做出决策的将是机器而不是人”。如果真的那一天因为放弃逻辑思维而出现科幻电影上描述的机器主宰世界消灭人类的结果,那我还不如现在就趁早跳楼。
还好我知道自己对什么统计学、量子力学、逻辑学和大数据来说都是门外汉,也许上面一大篇都是在胡说八道,所谓的担心根本不存在。但问题出现了,还是解决的好,不然没法睡着觉。自己解决不了就只能依靠专家来指点迷津。
所以想向《大数据时代》的作者提一个合理化建议:把这本书继续写下去,至少加一个第四部分——大数据时代的逻辑思维。
读《大数据时代》心得体会(二)
信息时代的到来,我们感受到的是技术变化日新月异,随之而来的是生活方式的转变„„我们这样评论着的信息时代已经变为曾经。如今,大数据时代成为炙手可热的话题。笔者在这说明信息和数据,只是试图首先说明信息、数据的关系和不同,也试图说明,为什么信息时代转变为了大数据时代?大数据时代带给了我们什么?
信息和数据的定义。维基网络解释:信息,又称资讯,是一个高度概括抽象概念,是一个发展中的动态范畴,是进行互相交换的内容和名称,信息的界定没有统一的定义,但是信息具备客观、动态、传递、共享、经济等特性却是大家的共识。数据:或称资料,指描述事物的符号记录,是可定义为意义的实体,它涉及到事物的存在形式。它是关于事件之一组离散且客观的事实描述,是构成信息和知识的原始材料。数据可分为模拟数据和数字数据两大类。数据指计算机加工的“原料”,如图形、声音、文字、数、字符和符号等。从定义看来,数据是原始的处女地,需要耕耘。信息则是已经处理过的可以传播的资讯。信息时代依赖于数据的爆发,只是当数据爆发到无法驾驭的状态,大数据时代应运而生。这是否是《大数据时代》一书所未曾阐述的背景材料?
在《大数据时代》一书中,大数据时代与小数据时代的区别:1、思维惯例。大数据时代区别与转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。作者语言绝对,却反思其本质区别。数据的更多、更杂,导致应用主意只能尽量观察,而不是倾其所有进行推理?这也是明智之举2、使用用途。小数据停留在说明过去,大数据用驱动过去来预测未来。笔者认为数据的用途意在何为,与数据本身无关,而与数据的解读者有关,而相关关系更有利于预测未来。3、结构。大数据更多的体现在海量非结构化数据本身与处理方法的整合。大数据更像是理论与现实齐头并进,理论来创立处理非结构化数据的方法,处理结果与未来进行验证。4、分析基础。大数据是在互联网背景下数据从量变到质变的过程。笔者认为,小数据时代也即是信息时代,是大数据时代的前提,大数据时代是升华和进化,本质是相辅相成,而并非相离互斥。
数据未来的故事。数据的发展,给我们带来什么预期和启示?银行业天然有大数据的潜质。客户数据、交易数据、管理数据等海量数据不断增长,海量机遇和挑战也随之而来,适应变革,适者生存。我们可以有更广阔的业务发展空间、可以有更精准的决策判断能力、可以有更优秀的经营管理能力„„可以这些都基于数据的收集、整理、驾驭、分析能力,基于脱颖而出的创新思维和执行。因此,建设“数据仓库”,培养“数据思维”,养成“数据治理”,创造“数据融合”,实现“数据应用”才能拥抱“大数据”时代,从数据中攫取价值,笑看风云变换,稳健赢取未来。
读《大数据时代》心得体会(三)
这本书里主要介绍的是大数据在现代商业运作上的应用,以及它对现代商业运作的影响。
《大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既,从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测,并对未来可能出现的问题提出自己看法与对策。
下面来重点介绍《大数据时代》这本书的主要内容。
《大数据时代》开篇就讲了Google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了20XX年美国的H1N1的爆发地与传播方向以及可能的潜在患者的事情。Google的预测比政府提前将近一个月,相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时Google的预测与政府数据的相关性高达97%,这也就意味着Google预测数据的置信区间为3%,这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例,维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候,通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本<总体”的做法很大程度上无法做到更进一步的描述事物,因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低,因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流,同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。
接下来,维克多又通过了IBM追求高精确性的电脑翻译计划的失败与Google只是将所有出现过的相应的文字语句扫描并储存在词库中,所以无论需要翻译什么,只要有联系Google词库就会出现翻译,虽然有的时候的翻译很无厘头,但是大多数时候还是正确的,所以Google的电脑翻译的计划的成功,表明大数据时代对准确性的追求并不是特别明显,但是相反大数据时代是建立在大数据的基础住上的,所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高,因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。
之后,维克托又预测了一个在大数据时代催生的重要职业——数据科学家,这是一群数学家、统计学与编程家的综合体,这一群人将能够从获取的数据中得到任何他们想要的结果。换言之,只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用,维克托建议将这一群人分为两部分,一部分使用数据为商业部门服务,而另一群人则负责审查这一些人是否合法的获得与应用数据,是否侵犯了个人隐私。
无论如何,大数据时代将会到来,不管我们接受还是不接受!
我觉得《大数据时代》这本书写的很好,很值得一读。因为会给我们很多启发,比如你在相关的社交网站发表的言论或者照片都很有可能被“数据科学家”们利用,从而再将相关数据卖给各大网店。不过,事实就是我们将会成为被预测被引诱的对象。所以说,小心你在网上留下的痕迹。
我喜欢这本书是因为它给我展现了一个新的世界。
读《大数据时代》心得体会(四)
利用周末,一口气读完了涂子沛的大作《大数据》。这本书很好看,行文如流水,引人入胜。书中,你读到的不是大数据技术,更多是与大数据相关的美国政治、经济、社会和文化的演进。作为一名信息化从业者,读完全书,我深刻感受到了在信息化方面中国与美国的各自特色,也看到了我们与美国的差距。有几个方面的体会,但窥一斑基本能见全貌。
一是政府业务数据库公开的广度和深度。近年来,随着我国信息公开工作的推进,各级政府都在通过政府门户网站建设积极推进网上政务信息公开,但我们的信息公开,现阶段还主要是政府的政策、法律法规、标准、公文通告、工作职责、办事指南、工作动态、人事任免等行政事务性信息的公开。当然,实时的政府业务数据库公开也已经取得很大进步。在中国政府门户网,可以查询一些公益数据库,如国家统计局的经济统计数据、环保部数据中心提供的全国空气、水文等数据,气象总局提供的全国气象数据,民航总局提供的全国航班信息等;访问各个部委的网站,也能查到很多业务数据,如发改委的项目立项库、工商局的企业信用库、国土资源部的土地证库、国家安监总局的煤矿安全预警信息库、各类工程招标信息库等等。这是一个非常大的进步,也是这么多年电子政务建设所取得的成效和价值!但是,政务业务数据库中的很多数据目前还没有实现公开,很多数据因为部门利益和“保密”等因素,还仅限于部门内部人员使用,没有公开给公众;已经公开的数据也仅限于一部分基本信息和统计信息,更多数据还没有被公开。从《大数据》一书中记录的美国数据公开的实践来看,美国在数据公开的广度和深度都比较大。美国人认为“用纳税人的钱收集的数据应该免费提供给纳税人使用”,尽管美国政府事实上对数据的公开也有抵触,但民愿不可违,美国政府的业务数据越来越公开,尤其是在奥巴马政府签署《透明和开放的政府》文件后,开放力度更加大。DATA.GOV是美国联盟政府新建设的统一的数据开放门户网站,网站按照原始数据、地理数据和数据应用工具来组织开放的各类数据,累积开放378529个原始和地理数据集。在中国尚没有这样的数据开放的网站。另外,由于制度的不同,美国业务信息公开的深度也很大,例如,网上公布的美国总统“白宫访客记录”公布的甚至是造访白宫的各类人员的相关信息;美国的FedSpending网站,能够逐条跟踪、记录、分析联邦政府每一笔财政支出。这在中国,目前应该还没有实现。
二是对政府对业务数据的分析。目前,中国各级政府网站所提供的业务数据基本上还是数据表,部分网站能提供一些统计图,但很少能实现数据的跨部门联机分析、数据关联分析。这主要是由于以往中国政务信息化的建设还处于部门建设阶段。美国在这方面的步伐要快一些,美国的DATA.GOV网站,不仅提供原始数据和地理数据,还提供很多数据工具,这些工具很多都是公众、公益组织和一些商业机构提供的,这些应用为数据处理、联机分析、基于社交网络的关联分析等方面提供手段。如DATA.GOV上提供的白宫访客搜索工具,可以搜寻到访客信息,并将白宫访客与其他微博、社交网站等进行关联,提高访客的透明度。
三是关于个人数据的隐私。在美国,公民的隐私和自有不可侵犯,美国没有个人身份证,也不能建立基于个人身份证号码的个人信息的关联,建立“中央数据银行”的提案也一再被否决。这一点,在中国不是问题,每个公民有唯一的身份信息,通过身份证信息,可以获取公民的基本信息。今后,随着国家人口基础数据库等基础资源库的建设,公民的社保、医疗等其他相关信息也能方便获取,当然信息还是限于政府部门使用,但很难完全保证整合起来的这些个人信息不被泄露或者利用。
数据是信息化建设的基础,两个大国在大数据领域的互相学习和借鉴,取长补短,将推进世界进入信息时代。我欣喜地看到,美国政府20XX年启动了“大数据研发计划”,投资2亿美元,推动大数据提取、存储、分析、共享、可视化等领域的研究,并将其与超级计算和互联网投资相提并论。同年,中国政府20XX年也批复了“十二五国家政务信息化建设工程规划”,总投资额估计在几百亿,专门有人口、法人、空间、宏观经济和文化等五大资源库的五大建设工程。开放、共享和智能的大数据的时代已经来临!
我精心推荐