⑴ 新手如何学习大数据
新手学习大数据可以通过自学或是培训两种方式。
想要自学那么个人的学历不能低于本科,若是计算机行业的话比较好。非本专业也可以,只要学历够,个人的逻辑思维能力以及个人的约束能力较好,就可以去网上找找免费的教程,选择适合自己的自学试试看。
自学大数据路线图👇👇
尝试自学若觉得自己的约束能力一般,但是能学到进去也想尽快掌握技术,那可以考虑参加大数据培训班,老师指导效率也会比较高。
无论是自学还是参加培训班都需要自己付出较多的努力哦。
⑵ 怎么自学大数据
自学大数据学习路线:(前提:以Java语言为基础)
总共分为四个模块:
大数据基础
大数据框架
大数据项目
其他
第一模块:大数据基础
Java基础:集合,IO流
JVM:重点是项目调优
多线程:理论和项目应用
Linux:最基本的操作
这一个模块的重点是为了面试做准备,个人根据自己的情况去复习,复习的时候理论部分建议看书和博客资料,应用部分建议看视频和Demo调试。
下面分别去详细的介绍一下:
Java基础:集合,IO流
主要是理论部分,可以看书或者博客总结,这一块没什么推荐的,网上很多资料可以找到。
JVM:重点是项目调优
多线程:理论和项目应用
这两块重点要结合到项目中,通过项目中的实际使用,然后反馈到对应的理论基础,这一块建议在B站上看对应的视频。B站”尚硅谷“官网上的视频很详细。
Linux:最基本的操作
这一块有时间,先把《鸟哥的Linux私房菜》这本书看一遍,然后装个Linux系统自己玩玩,对应的最常使用的命令自己敲敲。
如果没时间,就把最常用的命令自己敲敲,网上有对应的总结,自己很容易搜到。一定要自己敲敲。
第二模块:大数据框架
Hadoop:重点学,毕竟大数据是以Hadoop起家的,里面就HDFS,MapReces,YARN三个模块。
Hive:先学会怎么用,当作一个工具来学习。
Spark:重点学,用来替代Hadoop的MapReces的,里面重点有三块:Spark Core,Spark SQL,Spark Streaming。
Flink:我还没学。
Hbase:当作一个工具来学习,先学习怎么用。
Kafka:先学怎么用,其实里面的模块可以先理解成两部分:生产者和消费者。所有的核心都是围绕这两个展开的。
Flume:当作一个工具来学习,先学习怎么用。
Sqoop:当作一个工具来学习,先学习怎么用。
Azkaban:当作一个工具来学习,先学习怎么用。
Scala:这个是一门编程语句,基于Java 而来的,可以工作后在学习。
Zookeeper:当作一个工具来学习,先学习怎么用。
以上的学习视频和资料可以在B站的”尚硅谷“和”若泽大数据“里找到,很详细。资料目前最详细的资料就是各个框架对应的官网。视频里也是对着官网一步一步讲的。官网都是英文的,可以用Google浏览器的翻译插件,翻译成中文后在看。
第三模块:大数据项目
B站的”尚硅谷“和”若泽大数据“。
第四模块:其他
分布式:知道最基本的概念,有个分布式项目的经验。分布式项目可以在B站的”尚硅谷“里找到。
算法:网上有详细的总结,书:推荐《剑指Offer》和《算法4》,看算法的目的是先掌握实现算法的思路然后才是实现方式。
SQL:主要是调优,网上有很详细的总结。
除此之外:Storm框架不要学了。
很多准备前期都是为了面试,例如:JVM和多线程,SQL调优和算法。这些东西真正使用的过程中千差万别,但核心知识不变,所以面试的时候总是会问,这一块的前期以通过面试为主要点。
学习了差不多了,例如:Hadoop,Hive 和Spark学完了,就去面试面试,通过面试的情况在来调整自己的学习。
⑶ 想要学习大数据,应该怎么入门
记住学到这里可以作为你学大数据的一个节点。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapRece、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
⑷ 0基础如何学习大数据
第一阶段:Java语言基础,只需要学习Java的标准版JavaSE就可以了,做大数据不需要很深的Java 技术,当然Java怎么连接数据库还是要知道。
第二阶段:Linux精讲(因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑)。
第三阶段:Hadoop生态系统,这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapRece是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
第四阶段:strom实时开发,torm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。
第五阶段:Spark生态体系,它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。
第六阶段:大数据项目实战,大数据实战项目可以帮助大家对大数据所学知识更加深刻的了解、认识,提高大数据实践技术。
⑸ 初学者如何高效学习大数据技术
目前想要转型做大数据的人群当中,零基础的学习者不在少数,对于零基础学习者,比较中肯的建议是不要自学。大数据作为一门新兴技术,市面上能够找到的学习资料非常有限,并且大数据技术不断在更新迭代,自学很难跟上最新技术趋势。
对于大部分零基础学习者来说,想要学大数据,通过大数据培训是效率最高的方式。而市面上的大数据培训,可以分为线上培训和线下培训两种模式,不管是这些机构课程如何宣传,作为初学者,应该重视的是,如果能够达到高效的学习。
大数据线上培训,有直接卖录制好的视频的,也有视频直播课程,相对来说,视频直播课程具有更好的课堂互动性,如果能坚持下来,那么应当也能有一定的收获。
而大数据线下培训,应该说是各种培训模式下,学习效率和学习效果都最好的方式了。大数据线下培训有完备的教学体系,系统化的大数据课程,资深的专业讲师,三管齐下,能够帮助学习者更快地入门,打下良好的基础。
在大数据的学习中,除了基础技术知识的学习,更重要的是理论与实践的结合,毕竟我们最终还是要将技术知识运用到工作实际中,这也是就业当中的核心竞争力来源。
大数据线下培训,拥有良好的硬件环境支持,在不同的学习阶段,还有相应的实战项目来做联系,大大提升学习者的技术实战能力。
关于初学者如何高效学习大数据技术,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
⑹ 想自学大数据,要从哪方面入手呢
自学大数据很难
因为你的数据不知道从哪里来
如果用模拟, 那就学hadoop生态
单机部署伪分布式环境, 然后编写MapRece程序,
搭建hive hbase
走一套数据收集、处理流程
这就是自学
⑺ 大数据可以自学吗 怎么学
大数据是可以自学的,但是完全零基础自学大数据是非常困难的,现在大属数据岗位薪资福利处于IT行业的前列,如果想要入行,就要选对方法,大数据开发的基础是JAVA,python等编程语言,建议先从基础学起。
一、如果是计算机专业的,不管毕业与否,自学这个,比较好入门,并且以后找工作也算知洞是专业对口。
二、如果不是计算机专业,并且已经大学毕业了,自学就很费劲了,也更费时间,你没有一个详细的学习规划简直太浪费时间精力,最好是能报竖猛咐个班,有个系统的学习规划要比一个人在家里啃书自学强的多。
大数据前景很好,目前国大数据人才缺乏,大数据的应用十分广泛,大数据不仅包括企业内部应用系统的数据分析,还包括与行业、产业的深度融合。
对于零基础想要学习的大数据的同学,最好的方案是:先关注一些大数据领域的动态,让自己融入大数据这样一个大的环境中。然后找一些编程语言的资料(大数据的基础必备技能)和大数据入门的视频和书籍,基本的技术知识还是要了解的。
要余纯针对不同阶段、不同基础的同学制定不同的学习方案。对于零基础想要自学大数据,不是说不可能,但是很多以失败告终,客观原因:学习环境不好;主观原因:基础不好,看不懂,学不会,枯燥无味直接放弃。
在学习了一段时间之后,如果觉得自己还能应付的来,就继续寻找大数据基础视频和书籍,一步一个脚印的来;如果觉得觉得自己入门都很难,要么放弃,要么舍得为自己投资一把,去选择一家靠谱的培训机构。