导航:首页 > 网络数据 > 宜信大数据中心面试题

宜信大数据中心面试题

发布时间:2023-02-25 23:03:05

A. 宜信大数据中心有人了解吗

急用钱的小伙伴们,宜信金融可以帮助您解忧,速度快,审批快,宜信等你哦



在宜信的朋友说,大数据创新中心有很多很多的应届生,真正的大牛还是挺少的。在这样的竞争环境中,肯定会涌现出大批量的人才啊!

B. 「每日一道大数据面试题系列」spark如何调优

如果面试时被问到spark任务如何调优,我们该如何回答呢?

下面我们从四大方面回答这个问题,保证吊打面试官。

一、spark性能调优

1、分配更多的资源

比如增加执行器个数(num_executor)、增加执行器个数(executor_cores)、增加执行器内存(executor_memory)

2、调节并行度

spark.default.parallelism

3、重构RDD架构以及RDD持久化

尽量去复用RDD,差不多的RDD可以抽取成一个共同的RDD,公共RDD一定要实现持久化

4、广播变量

SparkContext.broadcast方法创建一个对象,通过value方法访问

5、使用kryo序列化

SparkConf中设置属性:spark.serializer: org.apache.spark.serializer.kryoSerializer

6、使用fastutil优化数据格式(代替java中的Array、List、Set、Map)

7、调节数据本地化等待时长

调节参数: spark.locality.wait

二、JVM调优

降低cache操作的内存占比 1.6版本之前使用的是静态内存管理

spark中堆内存被划分为两块:

一块是专门来给RDD作cachepersist持久化的 StorageMemory,另一块是给spark算子函数运行使用的,存放函数中自己创建的对象。

1.6版本之后采用统一内存管理机制

storage和execution各占50%,若己方不足对方空余可占用对方空间

可尝试调节executor堆外内存

spark.yarn.executor.memoryOverhead = 2048m

调节连接等待时长

spark.core.connection.ack.wait.timeout = 300

三、shuffle数据倾斜调优

1、预聚合源数据,对hive源表提前进行聚合操作,在hive聚合之后,spark任务再去读取

2、检查倾斜的key是否是脏数据,可以提前过滤

3、提高shuffle操作rece的并行度

4、使用随机key实现双重聚合

5、将rece端 join转换成map端 join

6、sample采样倾斜key,单独进行join后在union

7、使用随机数以及扩容表进行join

四、算子调优

1、使用mapPartition提升map类操作的性能

2、filter过后使用coalesce减少分区数量

3、使用foreachPartition优化写数据性能

4、使用repartition解决sparkSql低并行度的性能问题

5、receByKey替换groupByKey实现map读预聚合


C. 大数据分析面试问什么

  1. 基本工具

包括规定动作和自选动作两类。

1.1 规定动作

SQL查询: ON、DISTINCT、GROUP BY、ORDER BY等等。从数据库中提取数据是数据分析的第一步。

1.2 自选动作

根据简历来问,简历上写什么就问什么,会问得比较深入。简历作为敲门砖,撰写也是非常重要的,切不可写的过于夸张和造假,奉劝各位不要作死,毕竟不作死都有可能会死。Python、Stata、R、SPSS、SAS、EViews都算比较常见的数据分析工具。

2.逻辑思维

主要分为两方面,对业务逻辑的理解能力和行文的逻辑水平。

2.1业务逻辑

虽然一个业务看似流程简单清晰,但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。

2.2行文逻辑

毕竟最终产出是一份份报告,可能是HTML邮件也能是PDF。

3.理论储备

也分为规定动作和可选动作。

3.1 规定动作

主要是基础的统计学理论,如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。

3.2 自选动作

根据简历来问,简历上写什么hr一定会问什么。

4.对细节的敏感度

作为数据分析师,每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面,对统计口径的敏感度和对数据的敏感度。

4.1 统计口径

统计口径一致是确保数据可比性的基础,这非常考验数据分析师的敏感度和行业经验。

4.2 数据

面试者对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价1,500,酒水单价300,平均客单价2,500,能不能马上想到这可能是双峰数据或者长尾数据,抑或既双峰又长尾的数据?

5.学习能力

互联网行业瞬息万变,光数据的存储就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三驾马车等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识,解决新问题面试者必须证明给hr看。主要考察的方式是了解过往项目经历,或者出作业题(比如Sci-Hub)。

6.排版和简单UI设计

数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让面试者限时交一份slides(就是PPT啦)出来。

7.价值观

主要看工作热情、态度、道德水平等等,这方面的问题比较随机。

D. 常见大数据公司面试问题有哪些

1、您对“大数据”一词有什么了解?


答: 大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还使公司能够根据数据做出更好的业务决策。


2、告诉我们大数据和Hadoop之间的关系。


答: 大数据和Hadoop几乎是同义词。随着大数据的兴起,专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并帮助企业做出决策。


注意: 在大数据采访中通常会问这个问题。 可以进一步去回答这个问题,并试图解释的Hadoop的主要组成部分。


3、大数据分析如何有助于增加业务收入?


答:大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同,并增加收入。通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此公司正在使用大数据分析。通过实施大数据分析,公司的收入可能会大幅增长5-20%。一些使用大数据分析来增加收入的受欢迎的公司是-沃尔玛,LinkedIn,Facebook,Twitter,美国银行等。

E. 大数据面试题以及答案整理(一)

一、Map端的shuffle

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。

在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。partition的目的是将记录划分到不同的Recer上去,以期望能够达到负载均衡,以后的Recer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话),combiner的本质也是一个Recer,其目的是对将要写入到磁盘上的文件先进行一次处理,这样,写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中,Map任务结束后就会被删除)。

最后,每个Map任务可能产生多个spill文件,在每个Map任务完成前,会通过多路归并算法将这些spill文件归并成一个文件。至此,Map的shuffle过程就结束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三个阶段,、sort(merge)和rece。

首先要将Map端产生的输出文件拷贝到Rece端,但每个Recer如何知道自己应该处理哪些数据呢?因为Map端进行partition的时候,实际上就相当于指定了每个Recer要处理的数据(partition就对应了Recer),所以Recer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Recer会处理一个或者多个partition,但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段,也称为merge阶段,因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Rece端的数据都是有序的,所以很适合归并排序。最终在Rece端生成一个较大的文件作为Rece的输入。

最后就是Rece过程了,在这个过程中产生了最终的输出结果,并将其写到HDFS上。

 读:

1、跟namenode通信查询元数据,找到文件块所在的datanode服务器

2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流

3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)

4、客户端以packet为单位接收,现在本地缓存,然后写入目标文件

  写:

1、与namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在

2、namenode返回是否可以上传

3、client请求第一个 block该传输到哪些datanode服务器上

4、namenode返回3个datanode服务器ABC

5、client请求3台dn中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将真个pipeline建立完成,逐级返回客户端

6、client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,A收到一个packet就会传给B,B传给C;A每传一个packet会放入一个应答队列等待应答

7、当一个block传输完成之后,client再次请求namenode上传第二个block的服务器

F. 大数据技术Hadoop面试题

单项选择题

1.下面哪个程序负责HDFS数据存储。

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

2.HDfS中的block默认保存几份?

a)3份

b)2份

c)1份

d)不确定

3.下列哪个程序通常与NameNode在一个节点启动?

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

4.Hadoop作者

a)MartinFowler

b)KentBeck

c)Dougcutting

5.HDFS默认BlockSize

a)32MB

b)64MB

c)128MB

6.下列哪项通常是集群的最主要瓶颈

a)CPU

b)网络

c)磁盘

d)内存

7.关于SecondaryNameNode哪项是正确的?

a)它是NameNode的热备

b)它对内存没有要求

c)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间

d)SecondaryNameNode应与NameNode部署到一个节点

多选题

8.下列哪项可以作为集群的管理工具

a)Puppet

b)Pdsh

c)ClouderaManager

d)d)Zookeeper

9.配置机架感知的下面哪项正确

a)如果一个机架出问题,不会影响数据读写

b)写入数据的时候会写到不同机架的DataNode中

c)MapRece会根据机架获取离自己比较近的网络数据

10.Client端上传文件的时候下列哪项正确

a)数据经过NameNode传递给DataNode

b)Client端将文件切分为Block,依次上传

c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作

11.下列哪个是Hadoop运行的模式

a)单机版

b)伪分布式

c)分布式

12.Cloudera提供哪几种安装CDH的方法

a)Clouderamanager

b)Tarball

c)Yumd)Rpm

判断题

13.Ganglia不仅可以进行监控,也可以进行告警。()

14.BlockSize是不可以修改的。()

15.Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。()

16.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。() 1 2 3

G. 大数据面试题及答案谁能分享一下

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营,人才需求达到历史最高水平。这对你意味着什么?如果您想在任何大数据岗位上工作,它只能转化为更好的机会。您可以选择成为数据分析师,数据科学家,数据库管理员,大数据工程师,Hadoop大数据工程师等。在本文中,慧都网将介绍与大数据相关的前10大数据面试问题。

以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题,答案取决于您的经验,我们将分享一些如何回答它们的提示。

10个大数据面试入门级问题

无论何时进行大数据采访,采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富,都需要基础知识。因此,让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。

1.您对“大数据”一词有何了解?

答:大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么?

答:大数据的五个V如下:

H. 2021年大数据工程师面试内容包括哪些

【导语】近年来,大数据发展如火如荼,很多人都选择学习大数据专业或者转行大数据,大数据里又包含很多就业岗位,所以在进行岗位选择的时候,还是需要大家合理选择,为了帮助大家更好的进入大数据行业执业,下面就把2021年大数据工程师面试内容给大家进行一下具体介绍。

1、自我介绍

一般上来就是自我介绍,谈下工作经历和项目经验,面试官会根据你的项目经验对你进行技术面试。在自我介绍时,一定要抓住核心说,不要太啰嗦,尽量放大自己的价值,让面试官感受到你对工作的热情,以及以后对公司贡献的能力。

2、数仓开发知识技能

(1)Java是必问的,不过问的不深,把Javase部分吃透,足以应付Java部分的面试。

(2)Hadoop生态,Yarn、Zookeeper、HDFS这些底层原理要懂,面试经常被问。

(3)Maprece的shuffle过程这个也是面试被常问的。

(4)Hbase和HIve,搞大数据这些不懂真的说不过去。

(5)Mysql、Oracle和Postgres数据库操作要回,Sql要会写。

(6)linux操作系统,这个简单得命令必须要懂,会写shell脚本更好了。

(7)Kettle或Sqoop这种数据处理工具至少要会一个。8,数据仓库建模、数据模型的问题。

3、技术方面知识技能

(1)SparkSql和SparkStreaming,底层原理、内核、提交任务的过程等等,尽量深入内幕,这个经常会跟MapRece作比较的。当然也要了解Storm和Flink,Flink这个建议要学会,以后用处会越来越广。

(2)Redis、Kafka、ElasticSearch这些都得懂原理,深入了解,会使用,会操作,会调优。

(3)impala和kylin这些尽量也要了解会用

(4)Python这个要是有能力,有精力,建议也要往深处学习,我目前正在自学中。

(5)集群的问题,包括一些简单的运维知识。

(6)大数据数据倾斜的问题,包括Spark JVM内存调优问题等等。

关于2021年大数据工程师面试内容,就给大家介绍到这里了,希望对大家能有所帮助,当然进入大数据行业,还需要大家在平时不断进行技能提升,这样才能更好的拥有一席之地。

I. 大数据面试要准备哪些

一、大数据面试要准备一些应试须知:
1、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”,直到你的自我介绍完毕,面试官也没有记住你的名字,如果后续的自我介绍中没有突出的表现,那么这样的自我介绍注定是失败的。
2、告诉面试官和应聘职位相关的工作经历。在自我介绍自己的工作经历时,一定要注意哪些经历是和应聘职位相关,对应聘有帮助,哪些是毫无意义的。例如应聘技术人员的职位,我们主要讲从事本职工作的经历,如果有从事其他行业的经历,比如从事过销售,组织,管理工作的,也可以略微提一下,往往会对应聘起到一定的帮助。
3、在面试官面前展现性格阳光的一面。性格也是面试官需要考察的一项,一般来说活泼、外向的性格始终会受到大家的亲睐,所以我们在面试官面前一定要展示性格阳光的一面,即使内向,也不能表现出来。
4、简单的介绍一下自己的未来规划。未来规划这一项是为了告诉面试官,我是一个有计划、有目标、有理想的人,我参加面试是因为我对这份工作比较热爱,而不是为了混口饭吃而应聘这项工作。很多老板最怕找到以混日子为目的的员工。
5、注意扬长避短。扬长避短也就是说在面试时尽量选择自己好的方面来说,只说自己的优点,避免谈及自己的缺点。从人性的角度来讲,人们总是对负面的新闻感兴趣,因此在面试时,面试官会千方百计的发现你的缺点,你的弱项,如果我们主动将缺点暴露给对方,那么产生的影响往往是负面的。
细节决定成败,一个简单的自我介绍虽然只有短短的几分钟,但是其内容却包罗万象,因此在面试时自我介绍的完美与否是举足轻重的。
二、大数据面试要准备一些常见的面试题:
1、你会Java语言吗?熟悉到什么程度?
2、你最喜欢的编程语言是什么?为什么?
3、处理过的最大的数据量?你是如何处理他们的?处理的结果如何。
2、在处理大数据过程中,如何保证得到期望值?
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
7、如何判别maprece过程有好的负载均衡?什么是负载均衡?
8、Spark和Hive的区别,以及Spark和Hive的数据倾斜调优问题?
9、Hive和Hbase的区别?
10、MapRece的思想,以及MapRece调优问题?
11、你所了解的开源网站
12、有两个集群,每个集群有3个节点,使用hive分析相同的数据,sql语句完全一样,一个集群的分析结果比另外一个慢的多,给出造成这种现象的可能原因?
13、Hbase的优化?

14、集群的版本,以及集群的瓶颈问题?
15、CRM项目,怎么跟Spark结合?
16、如何创建一个关键字分类?
17、海量日志数据,提取出某日访问网络次数最多的那个IP?
18、Hadoop和Spark处理数据时,出现内存溢出的处理方法?
19、有一个1G大小的一个文件,里面每一是一个词,词的大小不超过16字节,内存大小限制大小1M,返回频率最高的50个词。
20、你是如何处理缺少数据的?你是推荐使用什么样的处理技术,或者说你是用什么样的技术处理呢?

阅读全文

与宜信大数据中心面试题相关的资料

热点内容
aspnetmvc代码 浏览:818
怎样测试网络的稳定性 浏览:79
itunes怎么查看安装的app 浏览:685
驱动式编程是什么 浏览:288
iphone6看片地址 浏览:972
网站百度快照导航怎么变样子了 浏览:792
离线传输文件有哪些方法 浏览:286
烧程序 浏览:9
win10登录windows账户 浏览:917
企业收到网络广告费如何记账 浏览:313
易班app的运营思路是什么 浏览:720
中国艺术微课怎么下载app 浏览:134
软件内的小说文件在哪里 浏览:200
会议需要准备的文件有哪些 浏览:480
升级文件无法读取或已损坏 浏览:889
进料检验文件有哪些 浏览:495
电脑里的文件被删除后怎么找回 浏览:295
数车编程软件哪个好用 浏览:579
在qq群里看不见说话 浏览:416
静态网站模板大气 浏览:504

友情链接