大数据架构师面试_大数据时代如何确定学习方向

⑴ 面试想吊打面试官阿里架构师教你吃透Spring(Boot、Cloud、MVC)

作为一名Java程序员，我想没人敢小觑 Spring的重要性，现在出去面试，无论多小的公司 or 项目，都要跟你扯一扯 Spring，扯一扯微服务，如果啃不下来，很可能就与大厂失之交臂。

精通Spring的原理实现的话，可以帮助你更好地职业进阶，学习前辈优秀的架构设计思想，总结出最优使用方案，绕过工作中遇到的很多坑。

一个框架的源码也是最大的知识库，源码是一层一层嵌套的，光靠文字说明会比较难以理解，最好是在IDE环境下跟着一步一步跟着点下去。

如果要学习源码，最合适的就是Spring，理由如下：

面试常问Spring、Spring Boot、Spring Cloud、Spring MVC面试题解析

针对Spring、Spring Boot、Spring Cloud、Spring MVC，笔者这边整理了几份学习PDF，这些PDF是可以免费分享的！

收集整理不易有需要的朋友帮忙转发一下，然后【点击这里】获取免费领取方式！

需要此PDF文档的朋友们记得转发一下；然后【点击这里】获取免费领取方式！

⑵ 大数据具体学什么

大数据分析挖掘与处理、移动开发与架构、软件开发、云计算等前沿技术等。

主修课程：面向对象程序设计、Hadoop实用技术、数据挖掘、机器学习、数据统计分析、高等数学、Python编程、JAVA编程、数据库技术、Web开发、Linux操作系统、大数据平台搭建及运维、大数据应用开发、可视化设计与开发等。

大数据旨在培养学生系统掌握数据管理及数据挖掘方法，成为具备大数据分析处理、数据仓库管理、大数据平台综合部署、大数据平台应用软件开发和数据产品的可视化展现与分析能力的高级专业大数据技术人才。

大数据岗位：

1、大数据系统架构师

大数据平台搭建、系统设计、基础设施。

技能：计算机体系结构、网络架构、编程范式、文件系统、分布并行处理等。

2、大数据系统分析师

面向实际行业领域，利用大数据技术进行数据安全生命周期管理、分析和应用。

技能：人工智能、机器学习、数理统计、矩阵计算、优化方法。

3、hadoop开发工程师

解决大数据存储问题。

4、数据分析师

不同行业中，专门从事行业数据搜集、整理、分析，并依据数据做出行业研究、评估和预测的专业人员，在工作中通过运用工具，提取、分析、呈现数据，实现数据的商业意义。

5、数据挖掘工程师

做数据挖掘要从海量数据中发现规律，这就需要一定的数学知识，最基本的比如线性代数、高等代数、凸优化、概率论等，经常会用到的语言包括Python、Java、C或者C++。

⑶ 美国大数据工程师面试攻略

项目数据分析师分享：美国大数据工程师面试攻略
方法/步骤
先做一个自我介绍，本科南开后，加入了一个创业公司kuxun，做实时信息检索，后来进入网络基础架构组，搭建了Bai App Engine的早期版本，随后去Duke大学留学，在攻读硕士期间，做跟Hadoop大数据相关的研究项目Starfish，之后在Amazon EC2部门实习，了解它们的内部架构，毕业后加入Linkedin，做广告组的架构，涉及Hadoop调优，Data Pipeline, Offline/Online, 实时系统。最新是在Coursera从事数据工程师工作。在多年工作中，除了对技术的不懈追求，也积累了大量的面试经验，从国内的一线互联网网络，阿里巴巴，奇虎，人人，到美国一线公司Facebook，Google，Linkedin，Twitter，Amazon，到热门Startup，Uber，Pinterest，Airbnb，Box，Dropbox，Snapchat，Houzz，拿到10+ offer，并且在Linkedin期间也面试过100+候选人，参与面试题制定，乐于分享并帮助很多人成功求职，实现目标。
我们看一下这张硅谷地图，它坐落于美国加州，从圣何塞到旧金山的狭长地带，中间是San francisco bay，简称湾区。它的由来是这边有计算机核心处理器中离不开的硅，30年来，硅谷就发展成为无数技术性创业公司的摇篮。在20多年前，就有很多硬件公司的辉煌Intel，Oracle，Apple，Cisco成功上市，10年前，互联网的兴起，造就了Yahoo，Google，Ebay的神奇，而如今Tesla，Facebook，Twitter，Linkedin正扶摇直上，成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion，PE从负数到上千。疯狂的估值背后也改变了世界。
如果说硅谷成功是有原因的，我觉得有两点。地理位置是得天独厚吸引大量人才，这里有Stanford和加州州立高校提供智力库的支持，在硅谷可以看到来自全世界的最聪明的人，中国人，印度人，犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农，但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题，在Stanford有个说法空气中都飘扬中创业的味道，一些早期员工通过上市套现又积累经验成了天使投资，Y Combinator，各种技术forum，meetup，创业导师，都很活跃。资本的力量功不可没，早年VC通过投资，收购，上市放大形成一个雪球效应。大家总喜欢问什么是next big thing，哪一个是下一个facebook，下一个musk，根据统计10年能成就一个千亿以上的公司，目前这个进程正在缩短。
我就拿Linkedin作为例子，介绍高科技公司（FLG）是什么样子。它是成立2003年的职业社交网站。在10年的发展中，也不是一下子爆发的，目前有3亿的全球用户，虽然跟Facebook，Google 10亿＋用户没法比，但是它有很好的护城河，用户定位高端精准，单位价值高。这张照片中左边这位是创始人Reid Hoffman，是Paypal黑帮成员，在硅谷也是呼风唤雨的大佬，目前是董事和投资人。中间这位是CEO Jeff，2013年被Glassdoor评为最佳CEO，作为职业经理人，成功帮助linkedin高速成长，他最喜欢提到transformation，希望我们每个员工能挑战自我，在各自岗位上进化。Linkedin提供了员工很好的福利，有号称湾区最佳的免费食堂，每个月一次的in day，hack day, 帮助员工内部创业的incumbator计划。它特点是数据驱动的开发产品，比如 People you may know, Job you may be interested, 我做过Sponroed Ads 都是需要很强数据背景和data scientist的支持。它的Biz model也很独特，有3个line，面向公司的招聘服务，面向广告商的市场服务，面向个人的订阅服务，还有最新Sales Solution，因为这么多可能性，成为华尔街的宠儿。
说硅谷，除了那些已经成功的大公司，不得不说现在最新的创业动向，这些代表了未来下一个FLG。我总结了一些领域和代表公司：云计算(box, dropbox)，大数据(cloudera)，消费互联网(pinterest)，健康(fitbit)，通讯(snapchat)，支付(square)，生活(uber)。这里是华尔街网站更新的最新融资规模，比如Uber就达到18Billion的估值，我当时拿到offer没去，还是觉得很疯狂，如果细看这张表，大家可以看到硅谷（蓝色）尤其是旧金山它们的融资规模远远大于其他地区，还是地理决定论。而在国内的两家xiaomi，jingdong都是在北京，而最近大家看到一些泡沫论，说什么阿里巴巴上市是否美股到顶，经纬VC创始人也提醒我们泡沫的风险，我无法判断。如果能参与到下一波浪潮里面去是很过瘾的。我推荐大家去看看 <浪潮之巅>，<奇点临近>，我还是很期待未来20年的技术革命。
我个人热爱大数据，在硅谷这也是大家津津乐道的，有个笑话，big data is like teenage talking about sex, nobody know how to do it. 其实大家还是兴趣驱动就好，不要那么功利，大数据技术涉及太多，平常工作中也是慢慢积累，有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个，如果你用不好，你的压力很大的，举个例子，你用某个开源数据库，发现它偶尔有数据丢失怎么办，如果这是线上服务，你不断收到报警，这时候你当时选用它的优点 scalable，容错性都没意义了。接着说大数据，这里面Hadoop作为行业标准，我面过的除了Google，微软不用，几乎所有的公司都在用，建议大家利用这个机会。这里面有三巨头，cloudera是老牌Hadoop咨询公司，Hadoop的创始人做CTO，Hortonworks也是很多Hadoop的committee，MapR是提出hdfs的erasure 编码方式高效而著名，它们都是融了巨资，模式也很像，先推出社区免费版，但有个商业版提供更好的管理。而今年出现一匹黑马，Spark，简单说就是内存级别的计算，比Hadoop框架里能节约IO，利用缓存，能适应批处理，迭代，流式计算。
这里看一下它的生态系统，如何学Hadoop是个循序渐进过程，先要理解学习它的core系统，HDFS, MapRece, Common，在外围有无数的系统工具方便开发，我个人用过的是 Avro作为数据格式，Zookeeper作为选主的高可靠性的组件，Solr作为搜索接口，Pig搭建工作流，Hive 数据仓库查询，Oozie管理工作流，HBase 作为KV 分布式存储，mahout数据挖掘的库，Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。
而Hadoop本身也是个进化过程，几年前0.19版本，到0.20, 0.23分流成Yarn架构最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的，但总体上Hadoop 2.0 是趋势，因为它有Yarn这样分离的资源管理平台，可以以插件的方式开发上面的Application，解放了生产力，而像Spark，Storm这些新型处理器也是支持Hadoop 2.0的。这里是Hortonworks它们提出来的社区版本架构，可以说标准的制定者，一流的公司制定标准，其他的公司一般用只能用它们提供的稳定版，没有多少话语权。但从事大数据，并不见得是要去这些制定标准的公司，大量的应用也是非常考验架构的灵活性。并且能看到实际的产品，很有成就感。
说到今年火的，还是要看Spark。从去年至今，已经开了2届Spark大会，上千人的规模，无数人对比Hadoop 100倍的性能提升而兴奋。这里说它的背景是诞生于Berkeley的Amplab，它们有个很有名的BDAS(Berkeley Data Analytics Stack)，目前Spark已经成为Apache的顶级项目。去年这个实验室的教授跟学生出去成立Databricks公司，拉到两轮上千万的风投，有人成Spark是Hadoop的终结者吗？我看今年Spark大会上，所有的Hadoop大佬公司都是鼎力支持，像Cloudrea甚至放弃impala的一线支持而转变成Spark。如果这么发展下去，星星之火可以燎原啊。它里面用到Scala是一种函数式语言。里面的组件也很多，有Shark支持SQL类似Hive，有Spark Streaming，MLlib，Graphx，SparkR，BlinkDB。它的核心数据结构是RDD，可以跑在各种分布式系统上。总体上是个包容性＋侵略性的系统。我个人也很看好它们的发展。

⑷ 大数据时代如何确定学习方向

在大数据的世界里面主要有三个学习方向，大数据开发师、大数据运维师、大数据架构师。
什么是大数据开发师？
围绕大数据系平台系统级的研发人员，熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapRece的作业及作业流的管理完成对数据的计算，并能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如： Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术，掌握设计开发大数据系统或平台的工具和技能，能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作，如性能改进、功能扩展、故障分析等。
什么是大数据运维师？
了解Hadoop、Spark、Storm等主流大数据平台的核心框架，熟悉Hadoop的核心组件：HDFS、MapRece、Yarn；具备大数据集群环境的资源配置，如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式，集群搭建，故障诊断、日常维护、性能优化，同时负责平台上的数据采集、数据清洗、数据存储，数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台，通过管理工具分配集群资源实现多用户协同使用集群资源。通过灵活、易扩展的Hadoop平台转变了传统的数据库和数据仓库系统架构，从Hadoop部署实施到运行全程的状态监控，保证大数据业务应用的安全性、快速响应及扩展能力！
什么是大数据架构师？
围绕大数据系平台系统级的研发人员，熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapRece的作业及作业流的管理完成对数据的计算，并能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如： Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术，掌握设计开发大数据系统或平台的工具和技能，能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作，如性能改进、功能扩展、故障分析等。

⑸ 这几个大数据GitHub项目，太强了吧

大家好，我是 梦想家 Alex 。我们都知道 github 对于程序员们而言，就是一个巨大的“聚宝盆”，上面不仅有很多优质的开源项目，还有很多热爱开源分享的开发者。但如何从浩如烟海的宝藏中，筛选出适合自己的优质项目呢？本期内容，我就为大家推荐几个我认为还不错的大数据学习必备的牛 X 项目，希望大家看完有所收获。

首推 heiying 的 BigData-Notes，该项目目前已经有高达 10.2K 的star，正如该仓库的介绍上简短几个字：大数据入门指南。这个项目也是我认为目前 最适合初学者学习和参考的项目 。

为什么说这个项目适合大数据初学者呢，可以通过观察项目的介绍文档，该项目包含了大数据学习必须要掌握的几种组件，包括 Hadoop，Hive，Spark，Flink，Kafka，Zookeeper，Flume，Sqoop，Azkaban，以及 Scala 函数式编程语言的教程 ，可谓是非常的系统全面

我们再借助谷歌插件 Octotree 观察项目的结构，可以看到该项目主要分为 code，notes，pictures，resources 四个目录

其中 code 目录主要用来存放各个组件使用相关的代码，正如统计的结果一样，这个项目中 Java 代码占了 94.8%，Scala 占了 5.2%，所以对于喜欢用 Java 编写代码的小伙伴们来说，这是一个不容错过的宝藏学习机会。

notes 部分主要存放相关组件的介绍和使用文档，其中 installation 子目录主要存放了相关组件编译，以及在Linux环境下各个组件的安装，单机/集群环境搭建的教程，我看过了内容，介绍的非常清晰详细。

另外两个目录 pictures 和 resources 就不做过多介绍了，一个是存放相关的图片教程，另一个是存放编写的代码中所需要用到的文本文件。

这个项目同样给力，是由 BAT 高级大数据架构师王知无创建的，该项目目前也已经斩获高达 5.2k star，是为数不多， 集基础学习和进阶实战 于一体的优质项目。

该项目按照大数据不同阶段的学习，所列举不同的文章干货

大数据开发基础篇

大数据框架学习篇

大数据开发实战进阶篇

大数据开发面试篇

从不同的分类足以见王老师的用心。同时，王知无前辈也是 51CTO 上的认证讲师，来看看官方的介绍。

相信很多同学在学习大数据的过程中，不清楚 Java 需要学习哪些内容，掌握到什么程度，这个时候完全可以借鉴王老师的这个仓库内容。

同时，学习这个仓库的内容，可以学习到作者作为架构师本身对于 JVM，分布式理论和基础，大数据框架基石之网路通信Netty，以及各个框架的源码学习，可谓“ 真.宝藏仓库 ”

除了基础的理论学习以外，还有大量实战性的内容可以借鉴参考

以及大量的面试题，还有自己从零到大数据专家一路走来的心路历程，学习路径指南，和自己对于技术学习的一些深入思考，相信大家拜读过后一定能收获满满，

这个项目比较特殊，是一个国外开发者开源的项目，英文翻译过来的意思是“很棒的大数据”，实际上呢~他列举的是很多很棒的大数据框架、资源和其他很棒的精选列表。灵感来自 awesome-php 、 awesome-python 、 awesome-ruby 、 hadoopecosystemtable 和 big-data 。目前也已经斩获 10.2K 的 star，非常强势。

为了方便阅读，我将其全部翻译成中文进行展示。

我们跳转到分布式编程，可以看到很多我们熟悉的技术，例如 Flink，Spark，Pig，MapRece 等等 ....

亦或者“分布式文件系统”，我们所熟知的 HDFS，Ku，GFS ...

点击对应的链接，可以跳转到对应的官方介绍页，方便我们减少搜索成本，快速了解不同领域大数据常用的技术组件，为我们之后做技术调研省了很多的时间。

让我厚颜无耻的夹带一下“私货”。这是我在今年年初的时候，创建的一个仓库，目前也已经有了快 200 的star 。从资历和star的数量显然不能跟前面几个大佬相比，但却是我第一次花费了大量精力，将一个项目像孩子一样进行“培养”。

为了设计一个好看的图标，还花了不少的精力。设置不同媒体平台的徽标设计，还参考了像 JavaGuide 这样的头部项目，也算是在亲力亲为的这个过程中，学到了不少东西。

可以放点内容给大家show一下

另外，我还开设了“福利”专栏，将自己学习过程中收集到的学习干货毫无保留地分享给大家，方便大家获取。

显而易见，这个是专注于 flink 学习的开源项目，其中的内容包含Flink 入门、概念、原理、实战、性能调优、源码解析等等，目前已经斩获了 10.5k 的 star，非常强势。

其维护的开发人员也是非常用心负责，一路跟随 flink 的版本，不停的在维护更新。

同时，主要维护者 zisheng 还将 flink 的研究做到了极致，不仅有 flink 成体系的博客链接，还有对应的源码系列。

还自己创建了专栏《从1到100深入学习Flink》，并将大家学习过程中有疑惑的地方解决过程统一记录下来，方便有需要的同学查看。虽然是付费的星球专享，但我觉得是真的值！感兴趣的话大家可以自行去了解。

导航:首页 > 网络数据 > 大数据架构师面试

大数据架构师面试

与大数据架构师面试相关的资料

友情链接