大数据常见面试题目_大数据开发面试题有什么

1. 大数据开发工程师面试主要面试哪些内容

只要数据量级大(或者是数据复杂度，或者是其他方面的量级大)到普通的处理方法无法处理地实际上都可以算作是大数据开发，只不过一般大数据开发目前招聘的很多都是做数据处理的。有如下几个方向:1)数据挖掘是大数据处理地一个方向，这里做数据挖掘要有一些统计学基础才能做，目前数据挖掘的方向其实不是很明确，和人工智能，机械学习也有一些关系，如果是做数据挖掘，基本的数据会由数据平台部或数据运维部门提供2)数据平台的开发(这里的平台开发在不同公司的内容又不一样，小公司可能是根据公司业务做一套完整的数据分析系统，大公司这个职位可能是一些开源组件的二次开发)3)大数据运维方向:比如hadoop，spark集群的运维，涉及到ha等内容4)大数据分析方向:有的公司会将职责细化，招聘一些专业的分析人员，去写hql或者是其它类sql来对数据进行分析最后，其实大数据平台相关工作的划分并不清晰，行业里没有统一标准，大公司小公司情况不同。关于技术方向更是用什么的都有，比如有的公司用spark，有的用impala，还有的用clickhouse等，最近flink也逐渐进入大家的视野。所以在找工作时应该要考虑的是自己的强项是什么，同时在选择工作时要考虑到这个工作在做了三五年后，从这家公司出来还能不能找到工作。我个人的建议是如果你会java,那不要脱离java(scala)语言去做大数据开发，也不要专业只去做数据分析工作，大数据行业目前仍旧有一些泡沫(个人看法)，很多组件仍旧是基于java的，一旦脱离java语言本身，那源码阅读，二次开发都会有问题，同时生产环境自动化去执行一些代码也是需要语言支持的，或者最差的预估，如果大数据行业严重缩水(比如某些公司可以分析，可以挖掘的内容有限)，可以随时转到java服务器开发方向。

2. 大数据面试题以及答案整理（一）

一、Map端的shuffle

Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目的是将记录划分到不同的Recer上去，以期望能够达到负载均衡，以后的Recer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Recer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三个阶段，、sort(merge)和rece。

首先要将Map端产生的输出文件拷贝到Rece端，但每个Recer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Recer要处理的数据(partition就对应了Recer)，所以Recer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Recer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段，也称为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Rece端的数据都是有序的，所以很适合归并排序。最终在Rece端生成一个较大的文件作为Rece的输入。

最后就是Rece过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

读：

1、跟namenode通信查询元数据，找到文件块所在的datanode服务器

2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件

写：

1、与namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

2、namenode返回是否可以上传

3、client请求第一个 block该传输到哪些datanode服务器上

4、namenode返回3个datanode服务器ABC

5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答

7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器

3. 尚硅谷大数据面试都会问些什么

其实不管是哪家公司面试，都是根据你的简历来对你进行提问，所以自己简历上面写的知识点都要全部对答如流。

还有慎用精通这样的字眼，工作五年以上的人，也不敢说自己对哪一方面能够达到精通的地步。

尚硅谷大数据面试的一些基本问题总结如下：

1.讲讲你做的过的项目。项目里有哪些难点重点注意点呢？
2.讲讲多线程吧，要是你，你怎么实现一个线程池呢？
3.讲一下Maprece或者hdfs的原理和机制。map读取数据分片。
4.shuffle 是什么？怎么调优？
5.项目用什么语言写？ Scala？ Scala的特点？和Java的区别？
6.理论基础怎么样，比如数据结构，里面的快速排序，或者，树？讲一讲你了解的树的知识？
7.数学怎么样呢？
8.讲一下数据库，SQl ，左外连接，原理，实现？
9.还了解过数据的什么知识？数据库引擎？
10.Hadoop的机架怎么配置的？
11.Hbase的设计有什么心得？
12.Hbase的操作是用的什么API还是什么工具？
13.对调度怎么理解.? 用什么工具吗？
14.用kettle 这种工具还是自己写程序？你们公司是怎么做的？
15.你们数据中心开发周期是多长？
16.你们hbase里面是存一些什么数据

4. 大数据开发人员面试常会被问什么问题

1、你自身的优点
这个问题不仅仅是在大数据面试当中常常被问，在各行各业的面试中都经常出现。所以面试者要尽可能说一些和工作相关的优点，比如“学习能力强”“能抗住压力”等，再举一个自己之前工作的例子进行证明，这会让面试官觉得很真实。
2、为什么要离开上家公司
其实面试官问这种问题的时候，就是在看你人品。很多人觉得说上家公司不好的话才是好的，其实不是的，离职见人品，如果你能在面试官面前说上家公司的不好，也能在下家公司说这家公司的不好。所以在面试官问及这个问题的时候，最好结合自身的发展来说。
3、未来几年的规划
回答这个问题的时候，不要说自己不知道、不清楚，会显得你这个人没有目标和方向。所以如果应聘者对这个问题不知道怎么回答的时候，可以跟面试官交流一下现在大数据行业的职业目标以及准备做些什么去实现这个目标，至少要让面试官看到应聘者对选择这个职业的热情，甚至是对选择这份工作的热情。

5. 2021年大数据工程师面试内容包括哪些

【导语】近年来，大数据发展如火如荼，很多人都选择学习大数据专业或者转行大数据，大数据里又包含很多就业岗位，所以在进行岗位选择的时候，还是需要大家合理选择，为了帮助大家更好的进入大数据行业执业，下面就把2021年大数据工程师面试内容给大家进行一下具体介绍。

1、自我介绍

一般上来就是自我介绍，谈下工作经历和项目经验，面试官会根据你的项目经验对你进行技术面试。在自我介绍时，一定要抓住核心说，不要太啰嗦，尽量放大自己的价值，让面试官感受到你对工作的热情，以及以后对公司贡献的能力。

2、数仓开发知识技能

(1)Java是必问的，不过问的不深，把Javase部分吃透，足以应付Java部分的面试。

(2)Hadoop生态，Yarn、Zookeeper、HDFS这些底层原理要懂，面试经常被问。

(3)Maprece的shuffle过程这个也是面试被常问的。

(4)Hbase和HIve，搞大数据这些不懂真的说不过去。

(5)Mysql、Oracle和Postgres数据库操作要回，Sql要会写。

(6)linux操作系统，这个简单得命令必须要懂，会写shell脚本更好了。

(7)Kettle或Sqoop这种数据处理工具至少要会一个。8，数据仓库建模、数据模型的问题。

3、技术方面知识技能

(1)SparkSql和SparkStreaming，底层原理、内核、提交任务的过程等等，尽量深入内幕，这个经常会跟MapRece作比较的。当然也要了解Storm和Flink，Flink这个建议要学会，以后用处会越来越广。

(2)Redis、Kafka、ElasticSearch这些都得懂原理，深入了解，会使用，会操作，会调优。

(3)impala和kylin这些尽量也要了解会用

(4)Python这个要是有能力，有精力，建议也要往深处学习，我目前正在自学中。

(5)集群的问题，包括一些简单的运维知识。

(6)大数据数据倾斜的问题，包括Spark JVM内存调优问题等等。

关于2021年大数据工程师面试内容，就给大家介绍到这里了，希望对大家能有所帮助，当然进入大数据行业，还需要大家在平时不断进行技能提升，这样才能更好的拥有一席之地。

6. 大数据面试题及答案谁能分享一下

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营，人才需求达到历史最高水平。这对你意味着什么？如果您想在任何大数据岗位上工作，它只能转化为更好的机会。您可以选择成为数据分析师，数据科学家，数据库管理员，大数据工程师，Hadoop大数据工程师等。在本文中，慧都网将介绍与大数据相关的前10大数据面试问题。

以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题，答案取决于您的经验，我们将分享一些如何回答它们的提示。

10个大数据面试入门级问题

无论何时进行大数据采访，采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富，都需要基础知识。因此，让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。

1.您对“大数据”一词有何了解？

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么？

答：大数据的五个V如下：

Volume -Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型，即各种数据格式，如文本，音频，视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性，因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值，企业可以创造收入。

YARN的两个主要组成部分：

ResourceManager-该组件接收处理请求，并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务

7.为什么Hadoop可用于大数据分析？

答：由于数据分析已成为业务的关键参数之一，因此，企业正在处理大量结构化，非结构化和半结构化数据。在Hadoop主要支持其功能的情况下，分析非结构化数据非常困难

存储
处理
数据采集

此外，Hadoop是开源的，可在商用硬件上运行。因此，它是企业的成本效益解决方案。

8.什么是fsck？

答：fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如，如果文件有任何丢失的块，则通过此命令通知HDFS。

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

答：NAS（网络附加存储）和HDFS之间的主要区别 -

HDFS在一组计算机上运行，而NAS在单个计算机上运行。因此，数据冗余是HDFS中的常见问题。相反，复制协议在NAS的情况下是不同的。因此，数据冗余的可能性要小得多。
在HDFS的情况下，数据作为数据块存储在本地驱动器中。在NAS的情况下，它存储在专用硬件中。

10.格式化NameNode的命令是什么？

答：$ hdfs namenode -format。

欢迎咨询慧都在线客服，我们将帮您转接大数据专家团队，并发送相关资料给您！

以上就是大数据面试题及答案，希望我的回答对您有帮助！

7. 大数据开发面试题有什么

大数据开发的面试题有spark开发，hadoop应用等内容，具体开发岗，分析工程师有不同的内容，千锋网有很多相关面试题。

8. 大数据技术Hadoop面试题

单项选择题

1.下面哪个程序负责HDFS数据存储。

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

2.HDfS中的block默认保存几份?

a)3份

b)2份

c)1份

d)不确定

3.下列哪个程序通常与NameNode在一个节点启动?

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

4.Hadoop作者

a)MartinFowler

b)KentBeck

c)Dougcutting

5.HDFS默认BlockSize

a)32MB

b)64MB

c)128MB

6.下列哪项通常是集群的最主要瓶颈

a)CPU

b)网络

c)磁盘

d)内存

7.关于SecondaryNameNode哪项是正确的?

a)它是NameNode的热备

b)它对内存没有要求

c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

d)SecondaryNameNode应与NameNode部署到一个节点

多选题

8.下列哪项可以作为集群的管理工具

a)Puppet

b)Pdsh

c)ClouderaManager

d)d)Zookeeper

9.配置机架感知的下面哪项正确

a)如果一个机架出问题，不会影响数据读写

b)写入数据的时候会写到不同机架的DataNode中

c)MapRece会根据机架获取离自己比较近的网络数据

10.Client端上传文件的时候下列哪项正确

a)数据经过NameNode传递给DataNode

b)Client端将文件切分为Block，依次上传

c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作

11.下列哪个是Hadoop运行的模式

a)单机版

b)伪分布式

c)分布式

12.Cloudera提供哪几种安装CDH的方法

a)Clouderamanager

b)Tarball

c)Yumd)Rpm

判断题

13.Ganglia不仅可以进行监控，也可以进行告警。()

14.BlockSize是不可以修改的。()

15.Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。()

16.如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。() 1 2 3

9. 大数据分析面试问什么

基本工具

包括规定动作和自选动作两类。

1.1 规定动作

SQL查询： ON、DISTINCT、GROUP BY、ORDER BY等等。从数据库中提取数据是数据分析的第一步。

1.2 自选动作

根据简历来问，简历上写什么就问什么，会问得比较深入。简历作为敲门砖，撰写也是非常重要的，切不可写的过于夸张和造假，奉劝各位不要作死，毕竟不作死都有可能会死。Python、Stata、R、SPSS、SAS、EViews都算比较常见的数据分析工具。

2.逻辑思维

主要分为两方面，对业务逻辑的理解能力和行文的逻辑水平。

2.1业务逻辑

虽然一个业务看似流程简单清晰，但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。

2.2行文逻辑

毕竟最终产出是一份份报告，可能是HTML邮件也能是PDF。

3.理论储备

也分为规定动作和可选动作。

3.1 规定动作

主要是基础的统计学理论，如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。

3.2 自选动作

根据简历来问，简历上写什么hr一定会问什么。

4.对细节的敏感度

作为数据分析师，每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面，对统计口径的敏感度和对数据的敏感度。

4.1 统计口径

统计口径一致是确保数据可比性的基础，这非常考验数据分析师的敏感度和行业经验。

4.2 数据

面试者对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价1,500，酒水单价300，平均客单价2,500，能不能马上想到这可能是双峰数据或者长尾数据，抑或既双峰又长尾的数据？

5.学习能力

互联网行业瞬息万变，光数据的存储就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三驾马车等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识，解决新问题面试者必须证明给hr看。主要考察的方式是了解过往项目经历，或者出作业题(比如Sci-Hub)。

6.排版和简单UI设计

数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让面试者限时交一份slides(就是PPT啦)出来。

7.价值观

主要看工作热情、态度、道德水平等等，这方面的问题比较随机。

导航:首页 > 网络数据 > 大数据常见面试题目

大数据常见面试题目

10个大数据面试入门级问题

与大数据常见面试题目相关的资料

友情链接