hadoop教程pdf_怎样进行大数据的入门级学习

Ⅰ 零基础可以培训大数据分析师吗会不会很难

随着大数据的大热，或者在大数据的影响下，很多企业开始真正重视数据，真正期望从数据中挖掘价值。甚至很多企业已经把数据作为取得竞争优势的战略。而数据真正价值的实现，不管计算效率，存储等发展的多快。一定需要“分析师”，可以说是数据分析师既是建造“数据大厦”的总体设计师，也是建造“数据大厦”的工人。
数据分析师最为稀缺的人才，相信未来10内一定是最为朝阳行业之一。所以现在很多朋友希望转型做数据分析师，很多毕业的同学也准备从事数据分析师。但很多都不知道成为一名分析师真正需要什么？
要跨入数据分析师，也许很多时候你只能从“工人”开始做成（这意味着在很大长一段时间内，你的工作内容可能比较枯燥，可能做的都是比较没有“技术”含量的活），慢慢的当你成为“熟练工”同时随着行业相关知识和各种技能的积累，慢慢你也会走上“数据设计师”之路。开始从事“高大上”或者更有技术含量的工作。
一、至少花三个月掌握技术
“磨刀不误砍柴工”，要想从为“工人”，甚至熟悉工，也需要很多技能，因为怎么说数据分析师也是技术工种。我觉得至少你要花3个月时间来学习一些最基础的知识。
1、花1个月学习数据库知识。
2、花1-2个月学习基础的统计学知识。
3、花1个月学习点linux的知识。
4、花1个月去学习最基础的数据挖掘模型：
5、花1个月掌握一门基础的挖掘软件的操作。
分析师一定要有持续学习的态度，所以在后续工作中一定要保持持续学习的态度哦。坚持学习各类知识，不仅仅是技能层面的。
二、选择感兴趣的行业
如果你已经工作，选择本行业或者相关行来。这样你在行业经验，业务知识你是有优势的。因为你比较清楚业务的“痛点”
从而你也就相对清楚应该给业务提供什么样的数据。
如果你是学生，分析师一下自己的兴趣，结合现在比较热门的行业（指数据在这个行业也是比较热）。
通过互联网学习，聊这个行业的商业模式，数据内容，分析点。有机会可以去参加一些同行的沙龙或者分享，清楚的了解这个行业的数据分析师或者同行平时都在干什么。
对比自己当面的知识储备，更有针对性的补充知识。和在学校的同学共勉一句话：“在学校学的东西都是有用的，只是学校没有告诉你怎么用！”
三、开始寻找机会
对于跨行业转入的同学，当你准备好上述内容的时候。开始找个机会：
1、内部转岗
2、选择中，小型公司。先入门，再修行。

Ⅱ 有哪些好的hadoop学习资料

1."Hadoop.Operations.pdf.zip"http://vdisk.weibo.com/s/vDOQs6xMAQH62
2."Hadoop权威指南(中文版)(带书签).pdf"Hadoop权威指南(中文版)(带书签).pdf
3."[Hadoop权威指南(第2版)].pdf"[Hadoop权威指南(第2版)].pdf
4."hadoop权威指南第3版2012.rar"hadoop权威指南第3版2012.rar

5.《Hadoop技术内幕：深入解析HadoopCommon和HDFS.pdf"《Hadoop技术内幕：深入解析Hadoop Common和HDFS.pdf
6."Hadoop技术内幕：深入解析MapRece架构设计与实现原理.pdf"Hadoop技术内幕：深入解析MapRece架构设计与实现原理.pdf

7."Hadoop实战.pdf"Hadoop实战.pdf
8."Hadoop实战-陆嘉恒(高清完整版).pdf"Hadoop实战-陆嘉恒(高清完整版).pdf
9."Hadoop实战(第2版).pdf"Hadoop实战(第2版).pdf
10."HadoopinAction.pdf"Hadoop in Action.pdf

11"Hadoop in practice.pdf"Hadoop in practice.pdf
12"HadoopThe.Definitive.Guide,3Ed.pdf"Hadoop The.Definitive.Guide,3Ed.pdf
13."O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf"O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf

14."hadoop入门实战手册.pdf"hadoop入门实战手册.pdf
15."Hadoop入门手册.chm"Hadoop入门手册.chm

16."windows下配置cygwin、hadoop等并运行maprece及maprece程序讲解.doc"windows下配置cygwin、hadoop等并运行maprece及maprece程序讲解.doc
17"在Windows上安装Hadoop教程.pdf"在Windows上安装Hadoop教程.pdf

18."Hadoop源代码分析(完整版).pdf"Hadoop源代码分析(完整版).pdf
19."hadoop-api.CHM"hadoop-api.CHM

20."HBase-Hadoop@小米.pptx" HBase-Hadoop@小米.pptx
21."但彬-Hadoop平台的大数据整合.pdf"但彬-Hadoop平台的大数据整合.pdf

22."QCon2013-罗李-Hadoop在阿里.pdf"QCon2013-罗李
23."网络hadoop计算技术发展.pdf"网络hadoop计算技术发展.pdf
24."QCon-吴威-基于Hadoop的海量数据平台.pdf"QCon-吴威-基于Hadoop的海量数据平台.pdf
25."8步安装好你的hadoop.docx"8步安装好你的hadoop.docx
26."hadoop运维经验分享.ppsx"hadoop运维经验分享.ppsx

27."PPT集萃：20位Hadoop专家分享大数据技术工具与最佳实践.rar"PPT集萃：20位Hadoop专家分享大数据技术工具与最佳实践.rar
28."Hadoop2.0基本架构和发展趋势.pdf"Hadoop 2.0基本架构和发展趋势.pdf
29."Hadoop与大数据技术大会PPT资料.rar"Hadoop与大数据技术大会PPT资料.rar
30."Hadoop2011云计算大会.rar"Hadoop2011云计算大会.rar

Ⅲ 想成为数据分析师学习流程是怎样的

第1本《谁说菜鸟不会数据分析入门篇》

很有趣的数据分析书！基本看过就能明白，以小说的形式讲解，很有代入感。包含了数据分析的结构化思维、数据处理技巧、数据展现的技术，很能帮我们提升职场竞争能力。找不到工作的，学好了它，自然没问题。

第2本《拯救你的Excel数据的分析、处理、展示（动画版）》

一本用手机看的Excel操作书，大部分例子都配置了二维码，手机扫扫就能看，基本上可以躺着把书学了。所有数据的分析、处理也都带了职场范例（有会计、HR、销售场景），很贴合实际。拯救我们小白的Excel，职场加薪不是梦想！

第3本《Excel图表之道：如何制作专业有效的商务图表》

职场大牛的书，教我们做图表的，好看到不能再好看。可以设计和制作达到杂志级质量的、专业有效的商务图表。相信平时我们很难做到吧，看了你就知道，也许一切没那么难。

第4本《绝了！Excel可以这样用：数据分析经典案例实战图表书》

挺好的一个系列，都是Excle常用的技巧，适合销售和HR。也是职场故事，很接地气，带视频的，全都是Excel数据分析的常用理念和方法。

第5本《深入浅出数据分析》

深入浅出系列是对新手非常友好的丛书，用生动但啰嗦的语言讲解案例。厚厚的一本书翻起来很快。本书涉及的基础概念比较广，包含一点统计学知识，学下来对数据分析思维会有一个大概了解。

第6本《MySQL必知必会》

如果真想买书看，可以看这本，适合新手向的学习，看基础概念和查询相关的章节即可。网络上大部分MySQL都是偏DBA的。

第7本《深入浅出统计学》

大概是最啰嗦的深入浅出系列，从卖橡皮鸭到赌博机的案例，囊括了常用的统计分析如假设检验、概率分布、描述统计、贝叶斯等。

第8本《网站分析实战》

互联网不再是网站的天下，但是移动端依旧有Web，我们在朋友圈看到的所有H5活动、第三方内容等，都是依托网页实现。网站的数据分析依旧有存在空间，网站的数据指标还是能够指导我们运营！

第9本《深入浅出Python》

还是深入浅出系列，完全适合零基础的新人。需要注意的是，编程学习不同于其他知识，如果计算机基础不稳固，在使用中会遇到各类问题。知其然不知其所以然！

第10本《Python学习手册》

对于拥有编程基础的人，这本书系无巨细的有些啰嗦，不过对新人，可以避免不必要的坑。把它当作一本工具文档吧，当遇到不理解的内容随时翻阅。

第11本《利用Python进行数据分析》

这本书是你学习python不二之选，对着书，着重学习numpy，pandas两个包！每段代码都敲打一遍，千万行的数据清洗基本不会有大问题了。

第12本《R语言实战》

R语言的入门书籍，从数据读取到各类统计函数的使用。虽然没有涉及机器学习，依靠这本书入门R是绰绰有余了。

第13本《统计学：从数据到结论》

这本书是将R语言和统计学结合的教材，可以利用这本书再复习一遍统计知识。

第14本《深入浅出SQL》

带你进入SQL语言的心脏地带，从使用INSERT和SELECT这些基本的查询语法到使用子查询（subquery）、连接（join）和事务（transaction）这样的核心技术来操作数据库。到读完《深入浅出SQL》之时，你将不仅能够理解高效数据库设计和创建，还能像一个专家那样查询、归一（normalizing）和联接数据。你将成为数据的真正主人。

第15本《数据挖掘导论》

这本书绝对是一本良心教材，拿到手从第一章开始阅读，能看多少就看多少。但是要尽量多看点，因为此书你可能要看一辈子的～～

第16本《算法导论中文版》

本书将严谨性和全面性融为一体，深入讨论各类算法，并着力使这些算法的设计和分析能为各个层次的读者接受。算法以英语和伪代码的形式描述，具备初步程序设计经验的人就能看懂；说明和解释力求浅显易懂，不失深度和数学严谨性。

上面的书籍都是PDF版

视频教材的有：

Python入门教程完整版（懂中文就能学会）资料

Python入门教程完整版（懂中文就能学会）视频

Mysql从入门到精通全套视频教程

8天深入理解python教程

大数据Hadoop视频教程，从入门到精通

Python就业班

Python标准库（中文版）

数学建模0基础从入门到精通，全套资源

0基础Python实战-四周实现爬虫系统

麦子学院招牌课程[明星python编程视频VIP教程][200G](价值9000元)

从零基础到数据分析师，帮你拿到年薪50万！

炜心:xccx158

Ⅳ 推荐几本javaEE的书籍,经典的。不要李刚的（虽然讲的好，但是繁琐，基础东西太多了）。结合了三大框架的

[Spring.2.0核心技术和最佳实践。廖学锋扫描版。
容易的Hibernate“PDF清晰版。PDF
精通struts的基于MVC的设计与开发PDF
[Struts.2权威指南 - 基于MVC开发的WebWork的核心。钢。Java.web扫描版PDF

Java方面的内部电驴学习知识
：

递归集合J2SE面向对象 - 封装，继承，多态
内存分析，通用，自动装箱和拆箱，注释
IO
多线程，线程同步
TCP / UDP
AWT，事件模型，匿名类
反射机制

SQL语句
多表联接的数据库（Oracle或MySQL）的正则表达式，内部和外部连接，子查询
管理表，视图，索引，序列，约束树的存储
存储过程，触发器
数据库设计三大范式，
3：JDBC
JDBC基本/>连接池
树的存储和显示
数据源的RowSet
JDBC连接Oracle和MySQL
：HTML_CSS_JAVASCRIPT
HTML，CSS，JavaScript的基本语法
> JavaScript的形成判断
DOM编程基础（事件处理程序）

JS效果，如TreeView，下拉联动JS学习方法
JS调试方法
DreamWeaver的初步（创建HTML，表格，表单，CSS）
5：Servlet的基础JSP
Tomcat的
servlet的基础的
web.xml中的配置基本
Web应用程序结构
servlet的生命周期
请求的响应常用的方法
的ServletContext类
HTTP协议基础（GET，POST）
饼干会话

应用程序
几个语法（JSP，包括JSTL）注意练习的项目，而不是坚持的语法和包装步骤的细节之前。
6：Struts的
多层体系结构的理论
模式1和模式2
Struts的
MVC

操作的业务逻辑类的基本概念之间的关系
Struts和JSP之间传递数据的
的Struts的治疗过程（流量控制）
的Struts的TagLib（了解常用的）
JSTL
中的ActionForm
>字段集合
上传文件的类型转换

DTO
动力作用形成的
验证框架
的ActionForward转发和重定向
动态生成的ActionForward
全局和局部的ActionForward
行动的推进范围
UnknownActionMapping
行动线程安全
I18N
如何切换语言环境的
Struts的异常处理机制处理
用户自定义的异常处理程序
Struts的多模块配置7：XML
（XML / XSL，XSLT / DTD的，SCHEMA基本的Java编程的概念可以自动处理暂且不说）
8：休眠 OR映射
Hibernate的基本发展原则，步骤
休眠
基本接口（重点届）
常见的属性的映射关系映射
原生SQL
懒级联反
继承关系映射
HQL
性能优化缓存二级缓存查询缓存
事务并发悲观锁定，乐观锁定
OpenSessionInView
CurrentSession
（至于JTA，的联合主键的自然主键动态主键的任何类型Creteria查询截击和事件自定义类型，等等。，你可以暂时扔到一边）
9：春季
IOC / DI
Spring配置
春季建筑
AOP和Spring AOP
声明式事务（AOP ）
Spring + Hibernate的春天的Web
范围
（其他的Spring模块，你可以暂时扔到一边自学）
10：EJB3.0
J2EE架构基金会（JTA JMS）
EJB基础（地位及基本理论，分类等）
注释
Ant的编译和部署EJB
会话Bean的
EJB依赖注入
持久性API
（JBoss的学习EJB3.0）
11：SOA

30个进球
你需要精通面向对象分析与设计（OOA / OOD），涉及模式（GOF，J2EEDP），以及综合模式。你应该充分了解UML，尤其是类，对象，互动，和statediagrams。<BR / 2，你需要学习JAVA语言以及它的核心类库集合，序列化，流，网络，多线程，反射，事件处理，NIO，定制系统的本地化，以及其他的基本知识。
3类加载器，JVM，classreflect，以及垃圾回收的基本工作机制，您应该是知道的，你应该有能力反编译一个类文件并且明白一些基本的汇编指令。
如果你要写一个客户端程序，你需要学习WEB的小应用程序（applet），必需掌握GUI设计的思想和方法的，和桌面应用程序的SWING，AWT，SWT，你也明白的UI部件的JAVABEAN组件模式中。JAVABEANS适用于业务逻辑的分离表示层JSP。
5。需要学习java数据库技术，如JDBCAPI，会使用至少一种persistence / ORM构架，比如Hibernate，JDO，CocoBase，TopLink的InsideLiberator（国产JDO红工厂软件）或者iBatis。
6。您还应该了解对象关系的阻抗失配的含义，以及它是如何影响业务对象的与关系型数据库交互，和结果它的操作，但还需要掌握不同的数据库产品，如拉克勒，MySQL和MSSQLSERVER。
7。你需要学习JAVA的沙盒安全模式（类加载器，bytecodeverification，的经理，policyandpermissions，
代码签名，加密技术，认证，Kerberos身份，和其他人）digitalsignatures，以及不同的安全/认证API的JAAS（）的，JCE（JavaCryptographyExtension）的的JSSE（JavaSecureSocketExtension）以及JGSS（JavaGeneralSecurityService）。
8。你需要学习Servlets和JSP，以及的JSTL（StandardTagLibraries）和选定的第三方TagLibraries。
9。你需要熟悉主流的网页框架，例如JSF，Struts中，挂毯，蚕茧，WebWork中，和他们下面的涉及模式，如MVC/MODEL2。
10。你需要学习如何使用及管理WEB服务器，例如tomcat的，树脂的JRUN，并知道如何的基础上扩展和维护WEB程序。
11。你需要学习分布式对象和远程API，例如RMI和RMI / IIOP。
12。你需要掌握各种流行中间件技术标准，并结合java实现，比如Tuxedo，CROBA，当然也包括JavaEE的本身。你应该学会
你需要学习至少一个XMLAPI例如JAXP（JavaAPIforXMLProcessing）的JDOM（JavaforXMLDocumentObjectModel），DOM4J，或JAXR（JavaAPIforXMLRegistries）。
14。如何利用JAVAAPI和工具来构建WebService的。（JavaAPIforXML / RPC），JAX-RPC SAAJ的（SOAPwithAttachmentsAPIforJava）的，JAXB（JavaArchitectureforXMLBinding）JAXM（JavaAPIforXMLMessaging）的JAXR（JavaAPIforXMLRegistries），或JWSDP（JavaWebServicesDeveloperPack）的。
> 15。需要，学习一个轻量级应用程序框架，例如Spring中，PicoContainer的阿瓦隆，以及他们的IoC / DI风格（setter方法??，构造函数，集成*** ceinjection）。
16。你需要熟悉不同的J2EE技术??，例如JNDI（JavaNamingandDirectoryInte *** CE）的JMS（JavaMessageService）的，JTA / JTS（JavaTransactionAPI / JavaTransactionService）的JMX（JavaManagementeXtensions），以及JavaMail的。
17。企业类级JavaBeans（EJB），你需要学习以及它们的不同组件模式：无状态/ StatefulSessionBeans，EntityBeans（bean-ManagedPersistence的包含[BMP]或容器ManagedPersistence [CMP]和它的EJB-QL），或者消息DrivenBeans（MDB ）
18。你需要学习如何管理与配置一个J2EE应用程序服务器，如WebLogic，JBoss的，并利用它的附加服务，例如簇类，连接池以及分布式处理的支持。您还需要了解它是如何封装和配置应用程序能够监控，调整它的性能。
19。你需要熟悉面向方面的编程，以及面向属性的程序设计（两个很容易混淆缩写为AOP），以及他们的主流JAVA规格和执行。如AspectJ和AspectWerkz。
20。熟悉的服务不同有用的API和框架为你工作。例如，Log4J的（记录/跟踪），石英（调度）的JGroups（networkgroupcommunication）JCache（distributedcaching）的，Lucene的（全职文章搜索）JakartaCommons的。
21。如果你要对接和旧的系统或本地平台，你需要学习的JNI（JavaNativeInte *** CE）和JCA（JavaConnectorArchitecture）。
22。JINI技术，您需要熟悉，和它的分布式系统，如主CROBA。
23。你需要JavaCommunityProcess的（ JCP），和他的不同JavaSpecificationRequests（JSR的），如JOLAP的Portlets（168）（69）（73），DataMiningAPI，等等。
24。你应该熟悉与的一个JAVAIDE例子的SunOne的NetBeans IntelliJIDEA或Eclipse（有些人更喜欢VI或EMACS来编写文件不管你是什么:)
25.JAVA一些配置（精确）是冗长的，它需要很多的人工代码（例如EJB），所以你需要熟悉代码生成工具，例如XDoclet。
26。你需要熟悉单元测试体系（JNunit），并且学习不同的生成，部署工具（Ant，Maven的）。
27。你需要熟悉JAVA开发的，经常使用的软件工程过程。例如RUP（RationalUnifiedProcess）andAgilemethodologies的。
28。你需要深入了解加熟练操作和配置操作系统，比如GNU / Linux操作系统，sunsolaris MacOS的，作为一个跨平台的软件开发。
29。您还需要跟上Java的发展步伐，比如现在可以深入学习javaME的，以及各种java中，使用的技术，如启动一个新的web富客户端技术的新规范。
30。您需要了解开源，至少在，许多Java技术的直接依赖开放源码，以推动发展，如JAVA3D技术。

Ⅳ 怎样进行大数据的入门级学习

怎样进行大数据的入门级学习？

文 | 郭小贤

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。

但从狭义上来看，我认为数据科学就是解决三个问题：

1. datapre-processing；(数据预处理）

2. datainterpretation；（数据解读）

3.datamodeling and analysis.（数据建模与分析）

这也就是我们做数据工作的三个大步骤：

1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；

2、我们想看看数据“长什么样”，有什么特点和规律；

3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。

这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。

这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。

R programming

如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：

R inaction：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的R basics（http：//cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest ‘r’ Questions），遇到复杂的问题可在上面搜索，总会找到解决方案的。这样一来，用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松，紧贴实战。

Dataanalysis and graphics using R：使用R语言做数据分析的入门书。这本书的特点也是紧贴实战，没有过多地讲解统计学理论，所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强，也就是说哪怕你手头没电脑写不了代码，有事没事拿出这本书翻一翻，也能读得进去。

但如果你先用R来从事实实在在的数据工作，那么上面两本恐怕不够，还需要这些：

Modernapplied statistics with S：这本书里统计学的理论就讲得比较多了，好处就是你可以用一本书既复习了统计学，又学了R语言。（S/Splus和R的关系就类似于Unix和Linux，所以用S教程学习R，一点问题都没有）

Datamanipulation with R：这本书实务性很强，它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样，本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说，这本书的内容非常重要，因为对于任何研究，一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则，你的研究总是要等待你的数据。

RGraphics Cookbook：想用R做可视化，就用这本书吧。150多个recipes，足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看，R是最容易做出最漂亮的图表的工具了。

Anintroction to statistical learning with application in R：这本书算是著名的the element of statistical learning的姊妹篇，后者更注重统计（机器）学习的模型和算法，而前者所涉及的模型和算法原没有后者全面或深入，但却是用R来学习和应用机器学习的很好的入口。

Ahandbook of statistical analysis using R：这本书内容同样非常扎实，很多统计学的学生就是用这本书来学习用R来进行统计建模的。

Python

Think Python，ThinkStats，Think Bayes：这是AllenB. Downey写的著名的Think X series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。

PythonFor Data Analysis：作者是pandas的主要开发者，也正是Pandas使Python能够像R一样拥有dataframe的功能，能够处理结构比较复杂的数据。这本书其实analysis讲得不多，说成数据处理应该更合适。掌握了这本书，处理各种糟心的数据就问题不大了。

Introctionto Python for Econometrics， Statistics and DataAnalysis：这本书第一章就告诉你要安装Numpy， Scipy， Matplotlib， Pandas， IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面，但读起来比较枯燥，可以用来当工具书。

PracticalData Analysis：这本书挺奇葩，貌似很畅销，但作者把内容安排得东一榔头西一棒子，什么都讲一点，但一个都没讲透。这本书可以作为我们学习数据分析的一个索引，看到哪块内容有意思，就顺着它这个藤去摸更多的瓜。

PythonData Visualization Cookbook：用Python做可视化的教材肯定不少，我看过的也就这一本，觉得还不错。其实这类书差别都不会很大，咬住一本啃下来就是王道。

Exploratory Data Analysis 和 Data Visualization

Exploratory DataAnalysis：John Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了，内容略过时。要想完整地了解EDA，推荐下一本：

ExploratoryData Analysis with MATLAB：这本书虽然标题带了个MATLAB，但实际上内容几乎没怎么讲MATLAB，只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于，这是我读过的讲EDA最系统的一本书，除了对visualization有不输于John Tucky的讲解外，对于高维的数据集，通过怎样的方法才能让我们从中找到潜在的pattern，这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码，而且还提供了GUI（图形用户界面）。所以这本书学起来还是相当轻松愉悦的。

VisualizeThis：中译本叫“鲜活的数据”，作者是个“超级数据迷”，建立了一个叫http：//flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A tour through the visualization zoo（A TourThrough the Visualization Zoo）

Machine Learning & Data Mining

这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名著“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep learning这两块就不荐书了。

TheElement of Statistical Learning：要学机器学习，如果让我只推荐一本书，我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了，大厦建得够高够大，结构也非常严谨，而且很有前瞻性，纳入了很多前沿的内容，而不仅仅是一部综述性的教材。（图表也做得非常漂亮，应该是用R语言的ggplot2做的。）这本书注重讲解模型和算法本身，所以需要具备比较扎实的数理基础，啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习（统计学习）的库现在已经非常丰富，即使你没有完全搞懂某个模型或算法的原理和过程，只要会用那几个库，机器学习也能做得下去。但你会发现你把数据代进去，效果永远都不好。但是，当你透彻地理解了模型和算法本身，你再调用那几个库的时候，心情是完全不一样的，效果也不一样。

DataMining： Concepts and Techniques， by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋，之所以推荐这本韩家炜爷爷的，是因为虽然他这本书的出发点是应用，但原理上的内容也一点没有落下，内容非常完整。而且紧跟时代，更新的很快，我看过的是第二版，就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了，我还没看过，但应该也加入了不少新内容。其实这本书并不难读，只是篇幅较长，啃起来比较耗时。

其实这两本书里单拎出来一块内容可能又是几本书的节奏，比如bayesian方法，再拿出两三本书来讲也不为过，我个人用到的比较多，而且也确实有不少好书。但并非是所有data scientist都要用到，所以这一块就不再细说。

还有一些印象比较深刻的书：

Big DataGlossary：主要讲解大数据处理技术及工具，内容涵盖了NoSQL，MapRece，Storage，Servers，NLP库与工具包，机器学习工具包，数据可视化工具包，数据清洗，序列化指南等等。总之，是一本辞典式的大数据入门指导。

Mining ofMassive Datasets：这本书是斯坦福大学Web Mining的讲义，里面很多内容与韩家炜的Data Mining那本书重合，但这本书里详细地讲了MapRece的设计原理，PageRank（Google创业时期的核心排序算法，现在也在不断优化更新）讲解得也比较详细。

DevelopingAnalytic Talent：作者是个从事了十几年数据工作的geek，技术博客写得很有个人风格，写的内容都比较偏门，通常只有具备相关数据处理经验的人能体会出来，丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办，或者MapRece在什么时候不好用的问题，才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结，用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。

Past， Present and Future of Statistical Science：这本书是由COPSS（统计学社主席委员会，由国际各大统计学会的带头人组成）在50周年出版的一本纪念册，里面有50位统计学家每人分别贡献出的一两篇文章，有的回忆了自己当年如何走上统计学这条路，有的探讨了一些统计学的根本问题，有的谈了谈自己在从事的前沿研究，有的则给年轻一代写下了寄语。非常有爱的一本书。

其它资料

Harvard Data Science：这是H大的Data science在线课，我没有修过，但口碑很好。这门课需要费用8千刀左右，比起华盛顿大学的4千刀的Data science在线课虽贵一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏计算机）。如果想自学，早有好心人分享了slides：（https：//drive.google.com/folderview？id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing）和homeworks and solutions：（https：//github.com/cs109/content）

PyData：PyData是来自各个domain的用Python做数据的人每年举行一次的聚会，期间会有各路牛人举行一些规模不大的seminar或workshop，有好心人已经把video上传到github，有兴趣的去认领吧（DataTau/datascience-anthology-pydata · GitHub）

工具

R/Python/MATLAB（必备）：如果是做数据分析和模型开发，以我的观察来看，使用这三种工具的最多。R生来就是一个统计学家开发的软件，所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具，但因为很多人不是专业做数据的，做数据还是为了自己的domain expertise（特别是科学计算、信号处理等），而MATLAB又是个强大无比的Domain expertise工具，所以很多人也就顺带让MATLAB也承担了数据处理的工作，虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件，但作为一个面向对象的高级动态语言，其开源的生态使Python拥有无比丰富的库，Numpy， Scipy 实现了矩阵运算/科学计算，相当于实现了MATLAB的功能，Pandas又使Python能够像R一样处理dataframe，scikit-learn又实现了机器学习。

SQL（必备）：虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展，但对于很多人来说，他们每天都有处理数据的需要，但可能一辈子都没机会接触TB级的数据。不管怎么说，不论是用关系型还是非关系型数据库，SQL语言是必须要掌握的技能，用什么数据库视具体情况而定。

MongoDB（可选）：目前最受欢迎的非关系型数据库NoSQL之一，不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用，扩展性强，Web2.0时代的必需品。

Hadoop/Spark/Storm（可选）： MapRece是当前最著名也是运用最广泛的分布式计算框架，由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统，要说他们之间的区别就是，Hadoop用硬盘存储数据，Spark用内存存储数据，Storm只接受实时数据流而不存储数据。一言以蔽之，如果数据是离线的，如果数据比较复杂且对处理速度要求一般，就Hadoop，如果要速度，就Spark，如果数据是在线的实时的流数据，就Storm。

OpenRefine（可选）：Google开发的一个易于操作的数据清洗工具，可以实现一些基本的清洗功能。

Tableau（可选）：一个可交互的数据可视化工具，操作简单，开箱即用。而且图表都设计得非常漂亮。专业版1999美刀，终身使用。媒体和公关方面用得比较多。

Gephi（可选）：跟Tableau类似，都是那种可交互的可视化工具，不需要编程基础，生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

来自知乎

以上是小编为大家分享的关于怎样进行大数据的入门级学习？的相关内容，更多信息可以关注环球青藤分享更多干货

导航:首页 > 文件教程 > hadoop教程pdf

hadoop教程pdf

与hadoop教程pdf相关的资料

友情链接