hadoop大数据面试题_大数据开发面试题有什么

⑴ 大数据面试题及答案谁能分享一下

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营，人才需求达到历史最高水平。这对你意味着什么？如果您想在任何大数据岗位上工作，它只能转化为更好的机会。您可以选择成为数据分析师，数据科学家，数据库管理员，大数据工程师，Hadoop大数据工程师等。在本文中，慧都网将介绍与大数据相关的前10大数据面试问题。

以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题，答案取决于您的经验，我们将分享一些如何回答它们的提示。

10个大数据面试入门级问题

无论何时进行大数据采访，采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富，都需要基础知识。因此，让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。

1.您对“大数据”一词有何了解？

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么？

答：大数据的五个V如下：

Volume -Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型，即各种数据格式，如文本，音频，视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性，因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值，企业可以创造收入。

YARN的两个主要组成部分：

ResourceManager-该组件接收处理请求，并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务

7.为什么Hadoop可用于大数据分析？

答：由于数据分析已成为业务的关键参数之一，因此，企业正在处理大量结构化，非结构化和半结构化数据。在Hadoop主要支持其功能的情况下，分析非结构化数据非常困难

存储
处理
数据采集

此外，Hadoop是开源的，可在商用硬件上运行。因此，它是企业的成本效益解决方案。

8.什么是fsck？

答：fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如，如果文件有任何丢失的块，则通过此命令通知HDFS。

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

答：NAS（网络附加存储）和HDFS之间的主要区别 -

HDFS在一组计算机上运行，而NAS在单个计算机上运行。因此，数据冗余是HDFS中的常见问题。相反，复制协议在NAS的情况下是不同的。因此，数据冗余的可能性要小得多。
在HDFS的情况下，数据作为数据块存储在本地驱动器中。在NAS的情况下，它存储在专用硬件中。

10.格式化NameNode的命令是什么？

答：$ hdfs namenode -format。

欢迎咨询慧都在线客服，我们将帮您转接大数据专家团队，并发送相关资料给您！

以上就是大数据面试题及答案，希望我的回答对您有帮助！

⑵ 2021年大数据工程师面试内容包括哪些

【导语】近年来，大数据发展如火如荼，很多人都选择学习大数据专业或者转行大数据，大数据里又包含很多就业岗位，所以在进行岗位选择的时候，还是需要大家合理选择，为了帮助大家更好的进入大数据行业执业，下面就把2021年大数据工程师面试内容给大家进行一下具体介绍。

1、自我介绍

一般上来就是自我介绍，谈下工作经历和项目经验，面试官会根据你的项目经验对你进行技术面试。在自我介绍时，一定要抓住核心说，不要太啰嗦，尽量放大自己的价值，让面试官感受到你对工作的热情，以及以后对公司贡献的能力。

2、数仓开发知识技能

(1)Java是必问的，不过问的不深，把Javase部分吃透，足以应付Java部分的面试。

(2)Hadoop生态，Yarn、Zookeeper、HDFS这些底层原理要懂，面试经常被问。

(3)Maprece的shuffle过程这个也是面试被常问的。

(4)Hbase和HIve，搞大数据这些不懂真的说不过去。

(5)Mysql、Oracle和Postgres数据库操作要回，Sql要会写。

(6)linux操作系统，这个简单得命令必须要懂，会写shell脚本更好了。

(7)Kettle或Sqoop这种数据处理工具至少要会一个。8，数据仓库建模、数据模型的问题。

3、技术方面知识技能

(1)SparkSql和SparkStreaming，底层原理、内核、提交任务的过程等等，尽量深入内幕，这个经常会跟MapRece作比较的。当然也要了解Storm和Flink，Flink这个建议要学会，以后用处会越来越广。

(2)Redis、Kafka、ElasticSearch这些都得懂原理，深入了解，会使用，会操作，会调优。

(3)impala和kylin这些尽量也要了解会用

(4)Python这个要是有能力，有精力，建议也要往深处学习，我目前正在自学中。

(5)集群的问题，包括一些简单的运维知识。

(6)大数据数据倾斜的问题，包括Spark JVM内存调优问题等等。

关于2021年大数据工程师面试内容，就给大家介绍到这里了，希望对大家能有所帮助，当然进入大数据行业，还需要大家在平时不断进行技能提升，这样才能更好的拥有一席之地。

⑶ hadoop面试题之HDFS

1、简单介绍下hadoop吧？

广义上hadoop是指与hadoop相关的大数据生态圈。包含hive、spark、hbase等。

狭义上hadoop指的是手悉apache的开源框架。有三个核心组件：

----hdfs：分布式文件存储系统

----yarn：分布式资源管理调度平台

----mr：分布式计算引擎

2、介绍下hdfs?

全称为Hadoop Distributed File System。有三个核心组件：

namenode：有三个作用，第一是负责保存集群的元数据信息，第二是负责维护整个集群节点的正常运行。

第三是负责处理客户端的请求。

datanode：负责实际保存数据。实际执行数据块的读写操作。

secondarynamenode：辅助namenode进行元数据的管理。不是namenode的备份。

3、namenode的工作机制？

namenode在内存中保存着整个内存系统的名称空间和文件数据块的地址映射。整个hdfs可存储的文件数受限于namenode的内存大小。所以hdfs不适合大量小文件的存储。

---namenode有三种元数据存储方式来管理元数据：

》内存元数据：内存中保存了完整的元数据

》保存在磁盘上的元数据镜像文件（fsimage）：该文件时hdfs存在磁盘中梁纤的元数据检查点，里面保存的是最后一次检查点之前的hdfs文件系统中所有目录和文件的序列化信息。

》数据操作日志文件（edits）：用于衔接内存meta data和持久化元数据镜像fsimage之间的操作日志文件。保存了自最后一次检查点之后所有针对hdfs文件系统的操作。如对文件的增删改查。

4、如何查看元数据信息？

因为edits和fsimage文件是经过序列化的，所以不能直接查看。hadoop2.0以上提供了查看两种文件的工具。

----命令：hdfs oiv 可以将fsimage文件转换成其他格式，如xml和文本文件。-i 表示输入fsimage文件。-o 输出文件路径，-p 指定输出文件

hdfs oev可以查看edits文件。同理需要指定相关参数。

详情查看： https://www.imooc.com/article/79705

4、datanode的工作机制？

1）以数据块的形式存储hdfs文件

2）datanode响应客户端的读写请求

3）周期性的向namenode汇报心跳信息、数据块信息、缓存数据块信息

5、secondary namenode工作机制？

当发生checkpoint机制时会触发second namenode进行工作。checkpoint：

新的edists文件不会立即和fsimage文件合并，是在edits文件大小超过（默认）64m，或者时间超过（默认）1小时，会触发checkpoint操作。当checkpoint时，namenode会新建一个edits.new的文件,此时second namenode将文件fsimage文件和edits文件（http get）到本地，然后加载到内存中进行合并，完成的文件名称为fsimage.ckpt。最后 second namenode将该文件（http post）到namenode，然后edits.new和fsimage.ckpt文件转换为fsimage和edits。

6、hdfs的文件副本机制？

所有的文件都是以块的形式保存到hdfs中。块的大小默认为128m。在hdfs-site文件中进行指定。

动态副本创建策略：默认副本数是3，可以在上传文件时，显式设定replication。也可以通过指令修改文件的副本数 hadoop fs -setrep -R 1

7、毕渣乎为实现高可用，hdfs采用了哪些策略？

副本机制、机架感知、心跳机制、安全模式、校验和、回收站、元数据保护、快照机制（具体介绍导航- https://www.jianshu.com/writer#/notebooks/44567747/notes/66453316 ）

8、hdfs的存储过程？

①client向hdfs发起写请求，通过RPC与namenode建立通讯。namenode检查文件是否存在等信息，返回是否可以存储。

②client将文件切割为一个个block块，client申请存储第一块block。namenode返回可以存储这个block块的datanode的地址，假设为ABC。

③A到B到C逐级构建pipeline。client向A上传第一个packet，默认为64k。A收到一个packet后会将packet传给B，再传给C。pipeline反方向返回ack信息。最终由第一个节点A将pipelineack发送给client

④一个block完成之后，再进行下一个block的存储过程。

9、hdfs的读过程？

10、hdfs的垃圾桶机制？

hdfs的垃圾桶机制默认是关闭的，需要手动开启。hdfs删除的文件不会立刻就删除，而是在设定的时间后进行删除。

11、hdfs的扩容和缩容

【

12、

⑷ 大数据开发面试题有什么

大数据开发的面试题有spark开发，hadoop应用等内容，具体开发岗，分析工程师有不同的内容，千锋网有很多相关面试题。

⑸ 尚硅谷大数据面试都会问些什么

其实不管是哪家公司面试，都是根据你的简历来对你进行提问，所以自己简历上面写的知识点都要全部对答如流。

还有慎用精通这样的字眼，工作五年以上的人，也不敢说自己对哪一方面能够达到精通的地步。

尚硅谷大数据面试的一些基本问题总结如下：

1.讲讲你做的过的项目。项目里有哪些难点重点注意点呢？
2.讲讲多线程吧，要是你，你怎么实现一个线程池呢？
3.讲一下Maprece或者hdfs的原理和机制。map读取数据分片。
4.shuffle 是什么？怎么调优？
5.项目用什么语言写？ Scala？ Scala的特点？和Java的区别？
6.理论基础怎么样，比如数据结构，里面的快速排序，或者，树？讲一讲你了解的树的知识？
7.数学怎么样呢？
8.讲一下数据库，SQl ，左外连接，原理，实现？
9.还了解过数据的什么知识？数据库引擎？
10.Hadoop的机架怎么配置的？
11.Hbase的设计有什么心得？
12.Hbase的操作是用的什么API还是什么工具？
13.对调度怎么理解.? 用什么工具吗？
14.用kettle 这种工具还是自己写程序？你们公司是怎么做的？
15.你们数据中心开发周期是多长？
16.你们hbase里面是存一些什么数据

⑹ 大数据分析面试问什么

基本工具

包括规定动作和自选动作两类。

1.1 规定动作

SQL查询： ON、DISTINCT、GROUP BY、ORDER BY等等。从数据库中提取数据是数据分析的第一步。

1.2 自选动作

根据简历来问，简历上写什么就问什么，会问得比较深入。简历作为敲门砖，撰写也是非常重要的，切不可写的过于夸张和造假，奉劝各位不要作死，毕竟不作死都有可能会死。Python、Stata、R、SPSS、SAS、EViews都算比较常见的数据分析工具。

2.逻辑思维

主要分为两方面，对业务逻辑的理解能力和行文的逻辑水平。

2.1业务逻辑

虽然一个业务看似流程简单清晰，但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。

2.2行文逻辑

毕竟最终产出是一份份报告，可能是HTML邮件也能是PDF。

3.理论储备

也分为规定动作和可选动作。

3.1 规定动作

主要是基础的统计学理论，如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。

3.2 自选动作

根据简历来问，简历上写什么hr一定会问什么。

4.对细节的敏感度

作为数据分析师，每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面，对统计口径的敏感度和对数据的敏感度。

4.1 统计口径

统计口径一致是确保数据可比性的基础，这非常考验数据分析师的敏感度和行业经验。

4.2 数据

面试者对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价1,500，酒水单价300，平均客单价2,500，能不能马上想到这可能是双峰数据或者长尾数据，抑或既双峰又长尾的数据？

5.学习能力

互联网行业瞬息万变，光数据的存储就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三驾马车等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识，解决新问题面试者必须证明给hr看。主要考察的方式是了解过往项目经历，或者出作业题(比如Sci-Hub)。

6.排版和简单UI设计

数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让面试者限时交一份slides(就是PPT啦)出来。

7.价值观

主要看工作热情、态度、道德水平等等，这方面的问题比较随机。

⑺ 大数据面试要准备哪些

一、大数据面试要准备一些应试须知：
1、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”,直到你的自我介绍完毕,面试官也没有记住你的名字,如果后续的自我介绍中没有突出的表现,那么这样的自我介绍注定是失败的。
2、告诉面试官和应聘职位相关的工作经历。在自我介绍自己的工作经历时,一定要注意哪些经历是和应聘职位相关,对应聘有帮助,哪些是毫无意义的。例如应聘技术人员的职位,我们主要讲从事本职工作的经历,如果有从事其他行业的经历,比如从事过销售,组织,管理工作的,也可以略微提一下,往往会对应聘起到一定的帮助。
3、在面试官面前展现性格阳光的一面。性格也是面试官需要考察的一项,一般来说活泼、外向的性格始终会受到大家的亲睐,所以我们在面试官面前一定要展示性格阳光的一面,即使内向,也不能表现出来。
4、简单的介绍一下自己的未来规划。未来规划这一项是为了告诉面试官,我是一个有计划、有目标、有理想的人,我参加面试是因为我对这份工作比较热爱,而不是为了混口饭吃而应聘这项工作。很多老板最怕找到以混日子为目的的员工。
5、注意扬长避短。扬长避短也就是说在面试时尽量选择自己好的方面来说,只说自己的优点,避免谈及自己的缺点。从人性的角度来讲,人们总是对负面的新闻感兴趣,因此在面试时,面试官会千方百计的发现你的缺点,你的弱项,如果我们主动将缺点暴露给对方,那么产生的影响往往是负面的。
细节决定成败,一个简单的自我介绍虽然只有短短的几分钟,但是其内容却包罗万象,因此在面试时自我介绍的完美与否是举足轻重的。
二、大数据面试要准备一些常见的面试题：
1、你会Java语言吗？熟悉到什么程度？
2、你最喜欢的编程语言是什么？为什么？
3、处理过的最大的数据量？你是如何处理他们的？处理的结果如何。
2、在处理大数据过程中，如何保证得到期望值？
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？
4、点击流数据应该是实时处理？为什么？哪部分应该实时处理？
6、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？
7、如何判别maprece过程有好的负载均衡？什么是负载均衡？
8、Spark和Hive的区别，以及Spark和Hive的数据倾斜调优问题？
9、Hive和Hbase的区别？
10、MapRece的思想，以及MapRece调优问题？
11、你所了解的开源网站？
12、有两个集群，每个集群有3个节点，使用hive分析相同的数据，sql语句完全一样，一个集群的分析结果比另外一个慢的多，给出造成这种现象的可能原因？
13、Hbase的优化？

14、集群的版本，以及集群的瓶颈问题？
15、CRM项目，怎么跟Spark结合？
16、如何创建一个关键字分类？
17、海量日志数据，提取出某日访问网络次数最多的那个IP？
18、Hadoop和Spark处理数据时，出现内存溢出的处理方法？
19、有一个1G大小的一个文件，里面每一是一个词，词的大小不超过16字节，内存大小限制大小1M，返回频率最高的50个词。
20、你是如何处理缺少数据的？你是推荐使用什么样的处理技术，或者说你是用什么样的技术处理呢？

导航:首页 > 网络数据 > hadoop大数据面试题

hadoop大数据面试题

10个大数据面试入门级问题

与hadoop大数据面试题相关的资料

友情链接