大数据算法面试_大数据面试经验：饿了么数据分析师

❶ shopee大数据sre面经

我对shopee是有一些情怀在里面的，早在17年的时候我就面试过它们的大数据岗位（base新加坡），年少轻狂的我当时没有针对性的好好复习，且项目积累的也不够，导致第二轮就被pass了。现在随着年龄的增长，我已经断了出国的念想，最终选择了深圳shopee作为此次跑路的目标公司。

本次跳槽，我制定了一个详细的计划，从复习内容到时间把控两个方面结合起来。大体情况如下：

时间安排上：

具体到一天的时间，因为是在职情况，所以系统的时间只能到晚上，一般就强迫自己从21:00复习到23:30左右。

20210301找人内推简历到shopee-->20210308一面-->20210312二面-->20210317三面-->20210324 offer沟通，然后第二天收到offer

一面：mentor面试，以基础为主

1、kafka的rebalance过程
2、zkfc的fence机制
3、jvm内存模型以及gc算法，垃圾收集器
4、clickhouse表引擎
5、spark的stage划分
6、spark straming与flink的区别
7、通讯网络上的tcp三次握手，四次挥手
8、常见数据结构，hashmap
9、算法题，leetcode179
10、Linux的文件系统设计，以及常用命令

二面：leader面试，以项目为主

1、hdfs读写流程，yarn调度器区别以及标签功能，hive倾斜问题以及小文件优化，spark资源优化
2、集群监控报警如何做的，不同组件的报警策略是什么，报警信息是否有合并
3、数据治理怎么做的，元数据管理，数据生命周期管理以及数据质量
4、数据迁移项目担任的角色，讲下迁移背景以及采用的工具，具体实施方式是怎样，过程中遇到的问题有哪些

三面：boss面试，以工作经历为主

1、自己对哪个组件非常熟（hdfs），数据规模怎样，做了哪些优化，namenode内部结构是怎样，它的qps是多少，hdfs关注的监控指标有哪些
2、工作中处理过的事故是什么，介绍下场景，当时如何解决的，问题是如何定位的，有没有什么更好的解决方式彻底解决
3、对大数据sre的理解
4、然后boss简单介绍了下shopee的大数据团队架构，个人的成长路线等。

四面：hr面，工作经历及谈薪

简单自我介绍，各个阶段离职的原因，期望薪资，目前offer情况等。

最后就是背调了，这个阶段一般要一周左右的时间，最后就是入职了。

总的来说，shopee的面试偏基础与自己的实际工作经历，考察范围比较广，需要掌握基本的网络知识，熟练编码能力，精通专业技能。最后祝愿所有跑路的同学们都拿到自己理想的offer！
（shopee最近很缺人哦，有想法的同学可查看： https://mp.weixin.qq.com/s?__biz=MzkzMzIzNDU0MA==&mid=2247483747&idx=1&sn=&chksm=52ea14&token=90945026&lang=zh_CN#rd ）

❷ 大数据工程师面试攻略有哪些

1、面试过程是一次高效的交流

首先，我觉得面试官有责任保证面试过程是一次高效的交流。你要获取到你需要的信息，对面试者做全方位的考量;面试者也要获取到他需要的信息，面试官(若面试成功很大可能是自己的上级)的水平，公司技术要求水平，自己是否适合这家公司，公司是否需要自己。

面试是一个双向选择的过程，面试官在选人，面试者在选公司。而面试者了解这家公司最直接的途径就是通过面试官。

2、面试官

说说面试官，我先说几个面试官常会有的问题。问题问得太跳跃，想到什么问什么。抓住一个面试官自己很熟的知识点或者方向往死里问，完全不会根据面试者的回答情况做调整(我是来面试的，不是来看你炫技的)。

3、技术问题

只问技术，不问业务，技术问题问得太表面，当然我也见过不错的面试官，问题问得很有水平。那有水平的面试官会给人什么样的感觉?答得很舒服，不管结果怎么样，总之能展现出自己应有的水平面试过程是有收获的，没有白来，知道了自己的欠缺，如果面试者是个到处抢着要的高手，那你有水平的提问会给这个面试者留下深刻印象，毕竟大家都是喜欢和厉害的人当同事的。

4、提问

说说提问，思路想法，表达能力，技术功底，热情。这几个点我是比较看重的。很多问题都是围绕着这几个点展开的，大家看下有没有借鉴意义。

❸ 常见大数据公司面试问题有哪些

1、您对“大数据”一词有什么了解?

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还使公司能够根据数据做出更好的业务决策。

2、告诉我们大数据和Hadoop之间的关系。

答：大数据和Hadoop几乎是同义词。随着大数据的兴起，专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并帮助企业做出决策。

注意：在大数据采访中通常会问这个问题。可以进一步去回答这个问题，并试图解释的Hadoop的主要组成部分。

3、大数据分析如何有助于增加业务收入?

答：大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同，并增加收入。通过预测分析，大数据分析为企业提供了定制的建议。此外，大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入，因此公司正在使用大数据分析。通过实施大数据分析，公司的收入可能会大幅增长5-20%。一些使用大数据分析来增加收入的受欢迎的公司是-沃尔玛，LinkedIn，Facebook，Twitter，美国银行等。

❹ 面试大数据工程师,这些技巧你知道吗

考算法，就像很多人说的，知道了一个算法又能怎么样，可能工作中一辈子都用不上，就算能用上，很多的算法都有库和包实现了，拿来用就是了。确实是这样，所以考算法，并不是为了考，为了会，而是为了在探讨算法的过程中，考察和验证一个人是否聪明，是否基本功扎实，是否能够顺畅沟通，是否能够快速反应和学习。在讨论和交流的过程中，发现闪光点。能不能想出来，或是说出来，并不是考算法的要点。

再看写代码，则是更多的为了考察和验证出活的能力。在很多的情况下，用什么语言写是没有要求的。这样，一是可以考察基本功，没有基本功，是不可能能快速出活的。二是可以考察平时的训练积累和经验，包括工作方式，编程风格，思考方法，等等。三是接受任务和完成任务的主动性，是不是愿意接受任何团队需要完成的任务。四是完成任务的速度和质量，也就是出活的速度和质量。这种写代码的测试，会是之后工作情景的一个小小的缩影。

从写代码的过程和最后写出的代码，可以深入的考察一个人的基本素质，工作方式，和出活的条件，和出活的效率和质量。

至于主动性，或是责任心，有多方面和多种方式可以考察和验证，比如，聊过去的项目，在项目中的角色，完成的任务，完成的质量。在聊算法，写代码的过程中，也能够窥见一些，因为，一个不主动负责的人，是很难在完成具体任务时佯装出来的。

关于面试大数据工程师,这些技巧你知道吗，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

以上是小编为大家分享的关于面试大数据工程师,这些技巧你知道吗?的相关内容，更多信息可以关注环球青藤分享更多干货

❺ 大数据面试经验：饿了么数据分析师

又有一种数据分析师，岗位职责要求你掌握常用的机器学习算法，面试首先推导一个决策树或者逻辑回归。入职后也是各类代码，和分析打交道的情况不多。

❻ 大数据面试题以及答案整理（一）

一、Map端的shuffle

Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目的是将记录划分到不同的Recer上去，以期望能够达到负载均衡，以后的Recer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Recer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三个阶段，、sort(merge)和rece。

首先要将Map端产生的输出文件拷贝到Rece端，但每个Recer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Recer要处理的数据(partition就对应了Recer)，所以Recer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Recer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段，也称为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Rece端的数据都是有序的，所以很适合归并排序。最终在Rece端生成一个较大的文件作为Rece的输入。

最后就是Rece过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

读：

1、跟namenode通信查询元数据，找到文件块所在的datanode服务器

2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件

写：

1、与namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

2、namenode返回是否可以上传

3、client请求第一个 block该传输到哪些datanode服务器上

4、namenode返回3个datanode服务器ABC

5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答

7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器

❼ 面试大数据工作要做好哪些准备

1、了解要面试的公司

对要面试的公司进行深入的研究了解，包括公司的企业文化，企业的发展状况，从而在面试时轻松面试，成功的概率自然会提高很多。

2、在面试中要介绍自己对于团队精神的认知

面试过程之中有一些招聘方会问到团队精神的问题，但有一些则不会问到这方面的问题，但不会问到这样问题的招聘人员并不表示他对于这样的问题并不关注，要知道在大数据开发技术方面，很多地方都是需要团队协作的。因此，在团队协作方面有着极高的要求，所以我们在招聘过程中一定要讲解到自己对于团队精神理念的认知，以及在团队协作表现方面的能力如何，这会让我们求职成功的概率更高。

3、在大数据面试的时候一定要将自己的项目经验展示出来

我们应聘的工作是大数据方面的工作，因此想要拥有更高的面试成功机会，那么就必须要有相应的项目，在大数据面试技巧这个问题上，我们需要关注的核心要点就是自己的项目经验，如果你本身只有大数据的理论知识，而没有项目实战经验，这种状态之下能够成功应聘上的概率自然降低了很多，为了规避这方面的问题产生，我们一定要做些大数据的项目，积攒项目经验，这样面试的时候也有话说。

❽ 大数据面试题及答案谁能分享一下

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营，人才需求达到历史最高水平。这对你意味着什么？如果您想在任何大数据岗位上工作，它只能转化为更好的机会。您可以选择成为数据分析师，数据科学家，数据库管理员，大数据工程师，Hadoop大数据工程师等。在本文中，慧都网将介绍与大数据相关的前10大数据面试问题。

以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题，答案取决于您的经验，我们将分享一些如何回答它们的提示。

10个大数据面试入门级问题

无论何时进行大数据采访，采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富，都需要基础知识。因此，让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。

1.您对“大数据”一词有何了解？

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么？

答：大数据的五个V如下：

Volume -Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型，即各种数据格式，如文本，音频，视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性，因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值，企业可以创造收入。

YARN的两个主要组成部分：

ResourceManager-该组件接收处理请求，并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务

7.为什么Hadoop可用于大数据分析？

答：由于数据分析已成为业务的关键参数之一，因此，企业正在处理大量结构化，非结构化和半结构化数据。在Hadoop主要支持其功能的情况下，分析非结构化数据非常困难

存储
处理
数据采集

此外，Hadoop是开源的，可在商用硬件上运行。因此，它是企业的成本效益解决方案。

8.什么是fsck？

答：fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如，如果文件有任何丢失的块，则通过此命令通知HDFS。

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

答：NAS（网络附加存储）和HDFS之间的主要区别 -

HDFS在一组计算机上运行，而NAS在单个计算机上运行。因此，数据冗余是HDFS中的常见问题。相反，复制协议在NAS的情况下是不同的。因此，数据冗余的可能性要小得多。
在HDFS的情况下，数据作为数据块存储在本地驱动器中。在NAS的情况下，它存储在专用硬件中。

10.格式化NameNode的命令是什么？

答：$ hdfs namenode -format。

欢迎咨询慧都在线客服，我们将帮您转接大数据专家团队，并发送相关资料给您！

以上就是大数据面试题及答案，希望我的回答对您有帮助！

❾ 数据分析师常见的面试问题

关于数据分析师常见的面试问题集锦

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?

4、什么是：协同过滤、n-grams, map rece、余弦距离?

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

6、如何设计一个解决抄袭的方案?

7、如何检验一个个人支付账户都多个人使用?

8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好：是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?

10、什么是概率合并(aka模糊融合)?使用sql处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?

11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?

12、你最喜欢的编程语言是什么?为什么?

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、sas, r, python, perl语言的区别是?

15、什么是大数据的诅咒?

16、你参与过数据库与数据模型的设计吗?

17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?

18、你喜欢td数据库的什么特征?

19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?

20、如果有几个客户查询oracle数据库的效率很低。为什么?你做什么可以提高速度10倍以上，同时可以更好处理大数量输出?

21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?

23、如何判别maprece过程有好的负载均衡?什么是负载均衡?

24、请举例说明maprece是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说?对于数据库分析的评价?

26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?

27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)

28、什么是星型模型?什么是查询表?

29、你可以使用excel建立逻辑回归模型吗?如何可以，说明一下建立过程?

30、在sql, perl, c++, python等编程过程上，待为了提升速度优化过相关代码或者算法吗?如何及提升多少?

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?

32、定义：qa(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?

33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?

34、你认为叶数小于50的决策树是否比大的好?为什么?

35、保险精算是否是统计学的一个分支?如果不是，为何如何?

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对a/b测试熟吗?

39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的.敏感性的想法如何看?

40、对于一下逻辑回归、决策树、神经网络。在过去XX年中这些技术做了哪些大的改进?

41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?

42、你如何建议一个非参数置信区间?

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?

44、什么是归因分析?如何识别归因与相关系数?举例。

45、如何定义与衡量一个指标的预测能力?

46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?

47、如何创建一个关键字分类?

48、什么是僵尸网络?如何进行检测?

49、你有使用过api接口的经验吗?什么样的api?是谷歌还是亚马逊还是软件即时服务?

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

51、可视化使用什么工具?在作图方面，你如何评价tableau?r?sas?在一个图中有效展现五个维度?

52、什么是概念验证?

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/it部门的人?有咨询经验吗?与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗?及it项目的生命周期，从收入需求到项目维护?

55、什么是cron任务?

56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

57、是假阳性好还是假阴性好?

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

59、zillow’s算法是如何工作的?

60、如何检验为了不好的目的还进行的虚假评论或者虚假的fb帐户?

61、你如何创建一个新的匿名数字帐户?

62、你有没有想过自己创业?是什么样的想法?

63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?

64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?

65、哪位数据科学有你最佩服?从哪开始?

66、你是怎么开始对数据科学感兴趣的?

67、什么是效率曲线?他们的缺陷是什么，你如何克服这些缺陷?

68、什么是推荐引擎?它是如何工作的?

69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?

70、你认为怎么才能成为一个好的数据科学家?

71、你认为数据科学家是一个艺术家还是科学家?

72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?

73、给出一些在数据科学中“最佳实践的案例”。

74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?

75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。

76、你觉得下一个20年最好的5个预测方法是?

77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误，或者是用作支撑作者的论点，而不是仅仅在罗列某个事物的信息?例如，对于每月官方定期在媒体公开发布的失业统计数据，你有什么感想?怎样可以让这些数据更加准确?

;

❿ 我想去学习大数据，听说要经过面试，面试的内容有哪些

1.海量日志数据，提取出某日访问网络次数最多的那个IP。
2.搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。
3.有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

4、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

导航:首页 > 网络数据 > 大数据算法面试

大数据算法面试

10个大数据面试入门级问题

与大数据算法面试相关的资料

友情链接