❶ 学大数据需要什么条件
作者:加米谷大数据老师
链接:https://www.hu.com/question/63581136/answer/1142926675
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
目前大多数的招聘企业,对于大数据人才要求必须是大专学历以上,而且大专学历还要求是理工科相关专业的,如果是本科及本科以上的,则对专业要求适当的放宽。大数据学习没有你想象的那么困难,零基础也是可以学习的。同时大数据分为两大方向:大数据开发和数据分析。
这两大方向的对于基础知识的要求不同,数据分析偏向应用层面,对于编程要求不高,相较而言对于基础知识这块要求低一点。
下面我们结合大数据开发和数据分析的课程内容来具体说明大数据学习要具备什么基础知识。
下面是大数据开发的课程内容:
阶段一:静态网页基础(主要学习HTML和CSS)
阶段二:javaSE+javaWEB
阶段三:JAVA高阶应用
阶段四:javaEE
阶段五:linux和Hadoop
阶段六:大数据数据库
阶段七:实时数据采集
阶段八:Spark数据分析
从上面的课程内容看,大数据开发学习要掌握java、linux、hadoop、storm、flume、hive、Hbase、spark等基础知识。
数据分析的课程内容:
阶段一:Mysql
阶段二:Python开发基础
阶段三:Python高阶编程
阶段四:数据分析基础知识
阶段五:数据挖掘
阶段六:机器学习
阶段七:业务分析
阶段八:项目实战(挖掘和业务分析)
阶段九:大数据分析
数据分析课程跟大数据开发不同,需要掌握的基础知识也不同,数据分析需要掌握的基础有:数据库、python、spss、MongDB、smartbi、tableau、r语言以及数据建模等知识。
以上就是大数据要掌握的基础知识,只有掌握了这些知识,才能够找到一份好的大数据工作。大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛,大数据技术已经像空气一样渗透在生活的方方面面。大数据技术的出现将社会带入了一个高速发展的时代,这不仅是信息技术的终极目标,也是人类社会发展管理智能化的核心技术驱动力。
❷ 生态环境大数据一体化平台能实现什么功能
生态环境大数据一体化平台是智慧指间以“构建环保物联网为基础,以生态大数据应用为灵魂”按照“大平台、大整合、高共享”的集约化思路,打造出技术服务一流的生态环境大数据一体化平台。该平台能实现一企一档,信息高效管理、环保一张图,全方位多角度的展示环境问题、环境业务协同化以及监控一体化管理、资源共享化和决策智能化等功能。
❸ 环保大数据互联时代将到来
环保大数据互联时代将到来
近年来,互联网为解决环境问题创造了前提条件。通过互联网的应用,可以实现环境数据、信息等要素互通共享,从而推动环境问题得到整体有效解决。公众舆论借助互联网将对企业排污形成巨大压力,督促其有效治污,也将推动环境改善因素由单一政府向全社会延伸。
预计在互联网的影响下,环保领域将迎来一个大数据互联时代。
线上线下有效互动
环保物联网覆盖范围将扩大,人人参与的大环境形成
目前,我国已经基本建立起了污染排放监控体系,特别是对于国控、省控、市控重点污染企业。然而,这些数据的真实性、有效性、公开性却一直受到不同程度的质疑。
随着信息技术日益完善普及,特别是新《环保法》的实施将为有力打击环境违法行为提供重要法律支撑,使“线上数据+线下执法”的模式配合大有可为。在推动环境改善驱动因素由单一政府向全社会延伸过程中,环境相关信息及数据的价值将得到显现。
一方面,预计未来除现有重点污染企业之外,大量“漏网之鱼”将逐步纳入监测体系并进行全面监控,环保物联网覆盖范围有望显着扩大。而来自民间的环境信息也将通过移动互联网等渠道大量涌现,使环境大数据具备坚实基础。与此同时,实施数据打假及信息公开并为后续执法提供更强支撑。
另一方面,预计未来建设环境监察移动执法系统的机构以及执法人员比例都将大幅增加,从而实现公众、企业、执法单位从线上到线下的有效互动,形成人人参与的环保大环境。
环境质量得到更多关注
多渠道信息检验治污效果,排污企业将改变 “验收导向”方式
今年以来,无论政府层面还是公众方面,在总量减排的基础上,更多提出环境质量的改善。相关指标有望逐步取代单一的污染物减排数字,成为“十三五”以及未来中长期环境规划的重要导向。
因此,从多渠道获得的环境质量数据,有望成为检验治污工程是否真实有效的关键考量。排污企业也将改变传统“验收导向”思维方式,更加倾向于选择具备技术和资金优势、能够真正解决问题的环境服务商。
大数据来源有哪些?
环境质量、污染源排放和个人活动信息将通过互联网互通共享
环境领域将迎来一个大数据互联时代。若要全面呈现环境问题,尤其需要通过互联网实现环境数据、信息等要素互通共享,从而推动环境问题得到整体有效解决。具体来看,目前主要存在以下3种与环境相关的数据来源:
第一,环境质量。这是指外部自然环境质量表征,典型数据信息包括大气、地表水、水资源、土壤、辐射、声、气象等环境质量,通常由政府及有关部门(如环境保护部)公开其制作或获取的环境信息。
基于已经建立起来的以国控、省控、市控3级为主的环境质量监测网,形成信息公开机制,初步勾勒出了我国整体环境质量状况。比如,全国城市空气质量日报/时报(367个城市)、全国主要流域重点断面水质自动监测周报(145个监测断面)、全国辐射环境自动监测站空气吸收剂量率(44个站点)等。
第二,污染源排放。这是造成环境污染的核心原因,具体体现为废水、废气、固废、放射源等形式,主要包括污染源基本情况、污染源监测、设施运行、总量控制、污染防治、排污费征收、监察执法、行政处罚、环境应急等环境监管信息。
《全国污染源普查公报》中的排污数据及信息,将是政府监管以及公众监督的重要前提与基础。目前,各地正逐步落实环境保护部出台的《关于加强污染源环境监管信息公开工作的通知》等文件。以北京市为例,虽然已按季度发布国控企业污染源监督性监测情况,而27家重点排污单位和上市企业仅于今年起初步实现自行监测信息对外发布,实时信息公开仍无法实现。
第三,个人活动产生的与环境相关的数据信息,如用水量、用电量、生活中产生的废弃物等。尽管这些数据拥有巨大的潜在价值,但其分布却呈现天然的分散状态,互联网特别是移动互联网的快速普及应用正在使上述信息的收集利用变得可行。
以上是小编为大家分享的关于环保大数据互联时代将到来的相关内容,更多信息可以关注环球青藤分享更多干货
❹ 怎样建设生态环保大数据平台
根据环保部发布的政策支持以及要践行绿色发展的新理念,加强生态环保合作,共同实现内2030年可持续发展容目标而提出“设立生态环保大数据服务平台”的规划,智慧指间积极响应,开发建设了环保大数据平台——生态环保智慧监管平台。
生态环保智慧监管平台是一套以环保物联网为基础,生态大数据为灵魂,按照“一个中心,三套体系”的架构,提供数据服务与应用的环境管理系统。一个中心指:生态环境数据资源中心,三套体系包括:智能监管、精准监测、公共服务体系。
❺ 生态环境大数据有哪些方面的数据
大数据:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的价值体现在以下几个方面:1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;2) 做小而美模式的中长尾企业可以利用大数据做服务转型;3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
数据的资源化,大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。企业必须要提前制定大数据营销战略计划,抢占市场先机。
与云计算的深度结合,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。
科学理论的突破,随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。
数据质量是BI(商业智能)成功的关键
数据生态系统复合化程度加强
❻ 大数据具体学什么
随着互联网技术的不断发展,当今的时代又被称之为大数据时代。大数据的学习,可以大致分为三个阶段:
阶段一,主要是学习大数据基础,主要是Java基础和Linux基础。
大数据的主要编程语言是Java,而主要的开发和运行在Linux环境当中完成,所以这两项基础必备。Java基础主要在Java SE、数据库方面,需要额外重视,而Linux,掌握基本的系统命令就能慢慢上手类 ,多用会越来越熟练。
阶段二,就是大数据技术组件框架的学习,这部分也是重点。
大数据技术体系庞杂,基础技术覆盖数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算(批处理、在线处理、实时流处理、内存处理)、多模态计算(图像、文本、视频、音频)、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。
但是从企业应用的角度来说,主要是基于开源框架开发应用的多,所以就是主流的大数据技术框架的学习,包括Hadoop、Spark、Storm、Flink等一系列框架及其生态圈。
阶段三,是项目练手。
招聘面试的时候,企业会很看重这方面,实战能力,能够基于具体的需求,去完成开发,给出合理的技术解决方案。
互联网行业目前还是最热门的行业之一,学习IT技能之后足够优秀是有机会进入腾讯、阿里、网易等互联网大厂高薪就业的,发展前景非常好,普通人也可以学习。
想要系统学习,你可以考察对比一下开设有相关专业的热门学校,好的学校拥有根据当下企业需求自主研发课程的能力,建议实地考察对比一下。
祝你学有所成,望采纳
北大青鸟学生课堂实录
❼ 企业应该如何在大数据基础架构方面做出选择
企业应该如何在大数据基础架构方面做出选择
如果询问十家公司他们为了运行大数据负载需要使用怎样的基础架构,那么可能会得到十种不同的答案。现在这个领域当中几乎没有可以遵循的原则,甚至没有可以参考的最佳实践。
不管是从资源还是从专业性方面来说,大数据分析已经成为基础架构领域当中真正的难题。顾名思义,大数据分析工具所针对的数据集合,规模将会非常庞大,并且需要大量的计算、存储和网络资源来满足性能需求。但是这些大数据工具通常是由超大规模企业开发的,这些企业并不存在普通企业需要考虑的同等级安全问题和高可用性问题,而主流IT企业还没有深入了解这些工具,再加上大数据在投资回报率方面的不确定性,导致只有非常少的企业愿意在大数据方面进行投入。
此外,即便对于曾经在Hadoop、Spark和类似产品上运行过大数据集群的部分企业来说,也会在大数据基础架构方面遇到技术和业务方面的挑战。
大数据带来大问题
一家大型远程通讯提供商正在构建一种新的数字服务,预计在今年年底正式推出,并且准备使用Hadoop来分析这种服务所产生的内容、使用情况和收入(广告服务)数据。但是由于这种服务是全新的,因此很难分析应该使用哪种大数据基础架构,负责这个项目的技术副总裁表示。
“对于一个还没有推出的项目来说,我们不可能进行任何容量规划,”他说。
确实,现在很多大数据项目仍然处于初级阶段。“大多数大数据项目的性质比我们想象的还要低,” 可扩展存储基础架构提供商Coho Data CTO Andrew Warfield表示。
即便企业还不是十分了解大数据技术,但这并不意味着企业不应该在大数据方面投入精力。“但是运行这种技术可能面临着很大风险,提前认识到这点非常重要,” Warfield说,他认为企业应该提前考虑基础架构方面的因素。
对于这家远程通讯提供商来说,他们将会采用一种渐进的方式,使用来自于BlueData Software的软件在商用硬件环境当中运行大数据集群,这样就能够从现有的存储系统上访问数据了。
无处不在的数据
如果数据来自于云,那么当然可以直接在云中进行分析;如果数据全部位于本地,那么底层的基础架构也应该位于本地。但是如果数据分散在不同位置,那么无疑会使得基础架构更加复杂。
远程通讯提供商的服务将会同时使用来自于云和本地的数据。对于任何大数据解决方案来说,考虑到合规性、节省时间和网络带宽等因素,能够同时支持两种数据来源都是十分重要的。“同步生产环境当中的数据是一件非常困难的事情,”这位副总裁说,“我们希望将所有的实例全都指向一个单一数据源。”
此外,虽然数据科学家想要分析的信息是可用的,但是现在还不能进行使用,因为其位于大数据计算工具无法访问的存储基础架构当中,Warfield说。一种解决方案是存储硬件使用Hadoop Distributed File System或者RESTful API这样的协议公开这些数据。
注意延迟
对于特性类型的大数据分析来说,将数据从存储阵列移动到计算环境所花费的时间将会对性能造成严重影响。但是如果不将数据跨越整个网络移动到计算环境当中,而是将应用程序移动到数据附近以降低延迟,将会怎样呢?
将计算环境移动到数据附近并不是一种全新的概念,但是现在出现了一种前所未有的实现方式:Docker。比如Coho Data和Intel通过合作证明了这种概念的有效性,在一个大型金融服务公司当中,使用Docker格式封装计算节点,之后在上面直接运行Hadoop负载。
在存储阵列上直接运行Docker容器,这样做的意义在于直接对附近的数据进行分析,而不再需要跨网络移动数据,同时利用任何可用的计算资源。“相比于其他存储平台来说,大数据平台的CPU使用率通常会很高,” Warfield说。“更何况如果你将闪存加入其中,那么问题就会变成‘我该如何从这种资源当中获得更多价值?’”
直接在存储阵列当中运行容器化应用程序是一件非常有趣的事情,但是需要提前对负载进行认真评估,以确保其能够很好地适应当前环境,为建筑行业提供文档管理服务的Signature Tech Studios公司副总裁Bubba Hines说。这种服务基于Amazon Web Services,使用来自于Zadara Storage的存储服务。这家公司最近开始评估新的Zadara Container Service,其中容器化应用程序运行在存储阵列上,可以直接访问本地磁盘。根据Hines的想法,现在有几种可能的使用情况:在存储阵列上运行其灾难恢复软件的容器版本来持续监控用户数据和工作方面的变化,更改或者验证主要存储数据。
但是如果使用Zadara Container Service处理全部数据将没有什么意义。Signature Tech Studio的系统正在按照计划执行数据转换,并且已经实现大规模容器化了。但是“我们可能不会将所有Docker容器移动到Zadara容器服务当中,因为从体积和规模方面考虑这样做并没有意义,”Hines说。“我们必须寻找能够真正从降低延迟当中获利的负载。”
以上是小编为大家分享的关于企业应该如何在大数据基础架构方面做出选择的相关内容,更多信息可以关注环球青藤分享更多干货
❽ 生态环境大数据建设需要系统设计
生态环境大数据建设需要系统设计
生态环境大数据建设是一项创新性工程,对推进环境治理体系和治理能力现代化将发挥积极的促进作用,需要系统设计,统筹规划,全面布局。
中国环境报:生态大数据建设的首要问题是什么?
程春明:树立全局性生态环保大数据发展观,实现数据“在一起”,这是大数据建设的前提与基础。因此,必须“更新观念,立足全局,打破割据,战略筹划”,用全局性的战略眼光谋划生态环境大数据建设。
中国环境报:生态环境大数据体系如何建立?
程春明:生态环境大数据的数据来源绝不仅仅局限于环保业务数据,而是更大范围、更多层次、更多结构的相关数据集合。通过部内、部际数据整合,社会、企业数据挖取,形成广样本、多结构、大规模、实时性的数据体系,使得数据的特征关联和创新应用成为可能,并不断丰富数据采集主体,创新数据采集手段。
在部内数据整合中,形成“一个司管理数据,其他司使用数据”的分工协作采集机制,对一个监管对象不重复采集数据,建立协调数据采集内容的工作机制。既提高环保工作效率,也提升公众满意度。
全流程的业务数据是生态环境大数据的重要数据来源和组成部分。改变目前环保内网的职责定位,由单纯的文件电子流转手段,转变为整个行政业务流程的监管手段,
同时,重视对社会公众相关数据的采集和整合,例如公众环境举报数据、社交媒体上的相关数据等。
中国环境报:在体制机制上如何适应?
程春明:生态环境大数据建设的顺利进行必须有环境管理体制机制上的支撑,形成与大数据相适应的良好管理生态,实现信息化系统的统一建设、应用系统和基础设施的统一运维、数据的集成管理。
按照今年环境保护部发布的《环境信息化建设项目管理办法》的要求,切实整合现有的环境信息系统,对新建的信息系统做好统筹立项,逐步改变环保信息系统职责交叉、标准不一、共享困难等现状,做好信息化和大数据相关规范和标准的建设。
通过制度规范,明确各业务部门在数据采集、使用、公开等方面的职能、关系和任务,明确数据方面的考核任务,形成促进数据共享、开放的体制机制。最终要形成支撑一线环保业务工作的环保云业务服务体系,成为“不下班”的数据保障系统,用数据打通排污许可、环境影响评价、污染物排放标准、总量控制、排污交易、排污收费等各管理环节,形成以大数据为核心的环境管理新业态。
中国环境报:如何推动大数据应用?
程春明:应用是大数据的灵魂。大数据为个性化地满足不同主体的差异化需求提供了可能。
一方面,大数据应用要抓住不同主体、不同业务、不同地域之间的需求差别,具体来说主要有以下3个层面:
一是按照不同的环境问题进行大数据创新应用,如黑臭水体治理问题、未批先建问题、雾霾预测预警等。
二是按照不同的环境业务进行大数据创新应用。按照陈吉宁部长要求,从监测、环评、政府网站3个环境业务领域入手开展大数据应用工作。
三是按照不同地域的环境工作特点开展大数据应用,突出地域特色,解决当地最突出的环境问题。
另一方面,大数据应用的创新主体要多元化。政府、企业、社会都是大数据应用的创新主体,应该通过多种方式积极引导社会力量参与大数据应用创新工作,在环境管理业务创新和社会应用创新两方面同时发力,形成“政府主导,多方参与,激发创新,共筑合力”的生态环境大数据创新应用格局。要激发生态环境大数据领域“大众创业、万众创新”的活力,积极培育环境大数据相关产业,推动形成环境大数据知识信息库。
❾ 大数据如何入门
首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
大数据
Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据基础。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapRece是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapRece、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
❿ 大数据分析应该掌握哪些基础知识
Java基础语法
· 分支结构if/switch
· 循环结构for/while/do while
· 方法声明和调用
· 方法重载
· 数组的使用
· 命令行参数、可变参数
IDEA
· IDEA常用设置、常用快捷键
· 自定义模板
· 关联Tomcat
· Web项目案例实操
面向对象编程
· 封装、继承、多态、构造器、包
· 异常处理机制
· 抽象类、接口、内部类
· 常有基础API、集合List/Set/Map
· 泛型、线程的创建和启动
· 深入集合源码分析、常见数据结构解析
· 线程的安全、同步和通信、IO流体系
· 反射、类的加载机制、网络编程
Java8/9/10/11新特性
· Lambda表达式、方法引用
· 构造器引用、StreamAPI
· jShell(JShell)命令
· 接口的私有方法、Optional加强
· 局部变量的类型推断
· 更简化的编译运行程序等
MySQL
· DML语言、DDL语言、DCL语言
· 分组查询、Join查询、子查询、Union查询、函数
· 流程控制语句、事务的特点、事务的隔离级别等
JDBC
· 使用JDBC完成数据库增删改查操作
· 批处理的操作
· 数据库连接池的原理及应用
· 常见数据库连接池C3P0、DBCP、Druid等
Maven
· Maven环境搭建
· 本地仓库&中央仓库
· 创建Web工程
· 自动部署
· 持续继承
· 持续部署
Linux
· VI/VIM编辑器
· 系统管理操作&远程登录
· 常用命令
· 软件包管理&企业真题
Shell编程
· 自定义变量与特殊变量
· 运算符
· 条件判断
· 流程控制
· 系统函数&自定义函数
· 常用工具命令
· 面试真题
Hadoop
· Hadoop生态介绍
· Hadoop运行模式
· 源码编译
· HDFS文件系统底层详解
· DN&NN工作机制
· HDFS的API操作
· MapRece框架原理
· 数据压缩
· Yarn工作机制
· MapRece案例详解
· Hadoop参数调优
· HDFS存储多目录
· 多磁盘数据均衡
· LZO压缩
· Hadoop基准测试
Zookeeper
· Zookeeper数据结果
· 内部原理
· 选举机制
· Stat结构体
· 监听器
· 分布式安装部署
· API操作
· 实战案例
· 面试真题
· 启动停止脚本
HA+新特性
· HDFS-HA集群配置
Hive
· Hive架构原理
· 安装部署
· 远程连接
· 常见命令及基本数据类型
· DML数据操作
· 查询语句
· Join&排序
· 分桶&函数
· 压缩&存储
· 企业级调优
· 实战案例
· 面试真题
Flume
· Flume架构
· Agent内部原理
· 事务
· 安装部署
· 实战案例
· 自定义Source
· 自定义Sink
· Ganglia监控
Kafka
· 消息队列
· Kafka架构
· 集群部署
· 命令行操作
· 工作流程分析
· 分区分配策略
· 数据写入流程
· 存储策略
· 高阶API
· 低级API
· 拦截器
· 监控
· 高可靠性存储
· 数据可靠性和持久性保证
· ISR机制
· Kafka压测
· 机器数量计算
· 分区数计算
· 启动停止脚本
DataX
· 安装
· 原理
· 数据一致性
· 空值处理
· LZO压缩处理
Scala
· Scala基础入门
· 函数式编程
· 数据结构
· 面向对象编程
· 模式匹配
· 高阶函数
· 特质
· 注解&类型参数
· 隐式转换
· 高级类型
· 案例实操
Spark Core
· 安装部署
· RDD概述
· 编程模型
· 持久化&检查点机制
· DAG
· 算子详解
· RDD编程进阶
· 累加器&广播变量
Spark SQL
· SparkSQL
· DataFrame
· DataSet
· 自定义UDF&UDAF函数
Spark Streaming
· SparkStreaming
· 背压机制原理
· Receiver和Direct模式原理
· Window原理及案例实操
· 7x24 不间断运行&性能考量
Spark内核&优化
· 内核源码详解
· 优化详解
Hbase
· Hbase原理及架构
· 数据读写流程
· API使用
· 与Hive和Sqoop集成
· 企业级调优
Presto
· Presto的安装部署
· 使用Presto执行数仓项目的即席查询模块
Ranger2.0
· 权限管理工具Ranger的安装和使用
Azkaban3.0
· 任务调度工具Azkaban3.0的安装部署
· 使用Azkaban进行项目任务调度,实现电话邮件报警
Kylin3.0
· Kylin的安装部署
· Kylin核心思想
· 使用Kylin对接数据源构建模型
Atlas2.0
· 元数据管理工具Atlas的安装部署
Zabbix
· 集群监控工具Zabbix的安装部署
DolphinScheler
· 任务调度工具DolphinScheler的安装部署
· 实现数仓项目任务的自动化调度、配置邮件报警
Superset
· 使用SuperSet对数仓项目的计算结果进行可视化展示
Echarts
· 使用Echarts对数仓项目的计算结果进行可视化展示
Redis
· Redis安装部署
· 五大数据类型
· 总体配置
· 持久化
· 事务
· 发布订阅
· 主从复制
Canal
· 使用Canal实时监控MySQL数据变化采集至实时项目
Flink
· 运行时架构
· 数据源Source
· Window API
· Water Mark
· 状态编程
· CEP复杂事件处理
Flink SQL
· Flink SQL和Table API详细解读
Flink 内核
· Flink内核源码讲解
· 经典面试题讲解
Git&GitHub
· 安装配置
· 本地库搭建
· 基本操作
· 工作流
· 集中式
ClickHouse
· ClickHouse的安装部署
· 读写机制
· 数据类型
· 执行引擎
DataV
· 使用DataV对实时项目需求计算结果进行可视化展示
sugar
· 结合Springboot对接网络sugar实现数据可视化大屏展示
Maxwell
· 使用Maxwell实时监控MySQL数据变化采集至实时项目
ElasticSearch
· ElasticSearch索引基本操作、案例实操
Kibana
· 通过Kibana配置可视化分析
Springboot
· 利用Springboot开发可视化接口程序