『壹』 大数据分析面试问什么
基本工具
包括规定动作和自选动作两类。
1.1 规定动作
SQL查询: ON、DISTINCT、GROUP BY、ORDER BY等等。从数据库中提取数据是数据分析的第一步。
1.2 自选动作
根据简历来问,简历上写什么就问什么,会问得比较深入。简历作为敲门砖,撰写也是非常重要的,切不可写的过于夸张和造假,奉劝各位不要作死,毕竟不作死都有可能会死。Python、Stata、R、SPSS、SAS、EViews都算比较常见的数据分析工具。
2.逻辑思维
主要分为两方面,对业务逻辑的理解能力和行文的逻辑水平。
2.1业务逻辑
虽然一个业务看似流程简单清晰,但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。
2.2行文逻辑
毕竟最终产出是一份份报告,可能是HTML邮件也能是PDF。
3.理论储备
也分为规定动作和可选动作。
3.1 规定动作
主要是基础的统计学理论,如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。
3.2 自选动作
根据简历来问,简历上写什么hr一定会问什么。
4.对细节的敏感度
作为数据分析师,每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面,对统计口径的敏感度和对数据的敏感度。
4.1 统计口径
统计口径一致是确保数据可比性的基础,这非常考验数据分析师的敏感度和行业经验。
4.2 数据
面试者对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价1,500,酒水单价300,平均客单价2,500,能不能马上想到这可能是双峰数据或者长尾数据,抑或既双峰又长尾的数据?
5.学习能力
互联网行业瞬息万变,光数据的存储就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三驾马车等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识,解决新问题面试者必须证明给hr看。主要考察的方式是了解过往项目经历,或者出作业题(比如Sci-Hub)。
6.排版和简单UI设计
数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让面试者限时交一份slides(就是PPT啦)出来。
7.价值观
主要看工作热情、态度、道德水平等等,这方面的问题比较随机。
『贰』 常见大数据公司面试问题有哪些
1、您对“大数据”一词有什么了解?
答: 大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还使公司能够根据数据做出更好的业务决策。
2、告诉我们大数据和Hadoop之间的关系。
答: 大数据和Hadoop几乎是同义词。随着大数据的兴起,专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并帮助企业做出决策。
注意: 在大数据采访中通常会问这个问题。 可以进一步去回答这个问题,并试图解释的Hadoop的主要组成部分。
3、大数据分析如何有助于增加业务收入?
答:大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同,并增加收入。通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此公司正在使用大数据分析。通过实施大数据分析,公司的收入可能会大幅增长5-20%。一些使用大数据分析来增加收入的受欢迎的公司是-沃尔玛,LinkedIn,Facebook,Twitter,美国银行等。
『叁』 大数据开发工程师面试主要面试哪些内容
只要数据量级大(或者是数据复杂度,或者是其他方面的量级大)到普通的处理方法无法处理地实际上都可以算作是大数据开发,只不过一般大数据开发目前招聘的很多都是做数据处理的。有如下几个方向:1)数据挖掘是大数据处理地一个方向,这里做数据挖掘要有一些统计学基础才能做,目前数据挖掘的方向其实不是很明确,和人工智能,机械学习也有一些关系,如果是做数据挖掘,基本的数据会由数据平台部或数据运维部门提供2)数据平台的开发(这里的平台开发在不同公司的内容又不一样,小公司可能是根据公司业务做一套完整的数据分析系统,大公司这个职位可能是一些开源组件的二次开发)3)大数据运维方向:比如hadoop,spark集群的运维,涉及到ha等内容4)大数据分析方向:有的公司会将职责细化,招聘一些专业的分析人员,去写hql或者是其它类sql来对数据进行分析最后,其实大数据平台相关工作的划分并不清晰,行业里没有统一标准,大公司小公司情况不同。关于技术方向更是用什么的都有,比如有的公司用spark,有的用impala,还有的用clickhouse等,最近flink也逐渐进入大家的视野。所以在找工作时应该要考虑的是自己的强项是什么,同时在选择工作时要考虑到这个工作在做了三五年后,从这家公司出来还能不能找到工作。我个人的建议是如果你会java,那不要脱离java(scala)语言去做大数据开发,也不要专业只去做数据分析工作,大数据行业目前仍旧有一些泡沫(个人看法),很多组件仍旧是基于java的,一旦脱离java语言本身,那源码阅读,二次开发都会有问题,同时生产环境自动化去执行一些代码也是需要语言支持的,或者最差的预估,如果大数据行业严重缩水(比如某些公司可以分析,可以挖掘的内容有限),可以随时转到java服务器开发方向。
『肆』 2021年大数据工程师面试内容包括哪些
【导语】近年来,大数据发展如火如荼,很多人都选择学习大数据专业或者转行大数据,大数据里又包含很多就业岗位,所以在进行岗位选择的时候,还是需要大家合理选择,为了帮助大家更好的进入大数据行业执业,下面就把2021年大数据工程师面试内容给大家进行一下具体介绍。
1、自我介绍
一般上来就是自我介绍,谈下工作经历和项目经验,面试官会根据你的项目经验对你进行技术面试。在自我介绍时,一定要抓住核心说,不要太啰嗦,尽量放大自己的价值,让面试官感受到你对工作的热情,以及以后对公司贡献的能力。
2、数仓开发知识技能
(1)Java是必问的,不过问的不深,把Javase部分吃透,足以应付Java部分的面试。
(2)Hadoop生态,Yarn、Zookeeper、HDFS这些底层原理要懂,面试经常被问。
(3)Maprece的shuffle过程这个也是面试被常问的。
(4)Hbase和HIve,搞大数据这些不懂真的说不过去。
(5)Mysql、Oracle和Postgres数据库操作要回,Sql要会写。
(6)linux操作系统,这个简单得命令必须要懂,会写shell脚本更好了。
(7)Kettle或Sqoop这种数据处理工具至少要会一个。8,数据仓库建模、数据模型的问题。
3、技术方面知识技能
(1)SparkSql和SparkStreaming,底层原理、内核、提交任务的过程等等,尽量深入内幕,这个经常会跟MapRece作比较的。当然也要了解Storm和Flink,Flink这个建议要学会,以后用处会越来越广。
(2)Redis、Kafka、ElasticSearch这些都得懂原理,深入了解,会使用,会操作,会调优。
(3)impala和kylin这些尽量也要了解会用
(4)Python这个要是有能力,有精力,建议也要往深处学习,我目前正在自学中。
(5)集群的问题,包括一些简单的运维知识。
(6)大数据数据倾斜的问题,包括Spark JVM内存调优问题等等。
关于2021年大数据工程师面试内容,就给大家介绍到这里了,希望对大家能有所帮助,当然进入大数据行业,还需要大家在平时不断进行技能提升,这样才能更好的拥有一席之地。
『伍』 大数据开发人员面试常会被问什么问题
1、你自身的优点
这个问题不仅仅是在大数据面试当中常常被问,在各行各业的面试中都经常出现。所以面试者要尽可能说一些和工作相关的优点,比如“学习能力强”“能抗住压力”等,再举一个自己之前工作的例子进行证明,这会让面试官觉得很真实。
2、为什么要离开上家公司
其实面试官问这种问题的时候,就是在看你人品。很多人觉得说上家公司不好的话才是好的,其实不是的,离职见人品,如果你能在面试官面前说上家公司的不好,也能在下家公司说这家公司的不好。所以在面试官问及这个问题的时候,最好结合自身的发展来说。
3、未来几年的规划
回答这个问题的时候,不要说自己不知道、不清楚,会显得你这个人没有目标和方向。所以如果应聘者对这个问题不知道怎么回答的时候,可以跟面试官交流一下现在大数据行业的职业目标以及准备做些什么去实现这个目标,至少要让面试官看到应聘者对选择这个职业的热情,甚至是对选择这份工作的热情。
『陆』 美国大数据工程师面试攻略有哪些
如果说硅谷成功是有原因的,我觉得有两点。地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国人,印度人,犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题,在Stanford有个说法空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator,各种技术forum,meetup,创业导师,都很活跃。资本的力量功不可没,早年VC通过投资,收购,上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个facebook,下一个musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,就有很多硬件公司的辉煌Intel,Oracle,Apple,Cisco成功上市,10年前,互联网的兴起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千。疯狂的估值背后也改变了世界。我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个。
『柒』 面试大数据&云计算的开发岗位,简历应该怎么写比较有
一份来简历,一般可以分为四个部分源,其中:
第一部分:为个人基本情况,应列出自己的姓名、性别、年龄、籍贯、政治面貌、学校、系别及专业,婚姻状况、健康状况、身高、爱好与兴趣、家庭住址、电话号码等。
第二部分:为学历情况。应写明曾在某某学校、某某专业或学科学习,以及起止期间,并列出所学主要课程及学习成绩,在学校和班级所担任的职务,在校期间所获得的各种奖励和荣誉。
第三部分:为工作资历情况。若有工作经验,最好详细列明,首先列出最近的资料,后详述曾工作单位、日期、职位、工作性质。
第四部分:为求职意向。即求职目标或个人期望的工作职位,表明你通过求职希望得到什么样的工种、职位,以及你的奋斗目标,可以和个人特长等合写在一起。
『捌』 大数据面试要准备哪些
一、大数据面试要准备一些应试须知:
1、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”,直到你的自我介绍完毕,面试官也没有记住你的名字,如果后续的自我介绍中没有突出的表现,那么这样的自我介绍注定是失败的。
2、告诉面试官和应聘职位相关的工作经历。在自我介绍自己的工作经历时,一定要注意哪些经历是和应聘职位相关,对应聘有帮助,哪些是毫无意义的。例如应聘技术人员的职位,我们主要讲从事本职工作的经历,如果有从事其他行业的经历,比如从事过销售,组织,管理工作的,也可以略微提一下,往往会对应聘起到一定的帮助。
3、在面试官面前展现性格阳光的一面。性格也是面试官需要考察的一项,一般来说活泼、外向的性格始终会受到大家的亲睐,所以我们在面试官面前一定要展示性格阳光的一面,即使内向,也不能表现出来。
4、简单的介绍一下自己的未来规划。未来规划这一项是为了告诉面试官,我是一个有计划、有目标、有理想的人,我参加面试是因为我对这份工作比较热爱,而不是为了混口饭吃而应聘这项工作。很多老板最怕找到以混日子为目的的员工。
5、注意扬长避短。扬长避短也就是说在面试时尽量选择自己好的方面来说,只说自己的优点,避免谈及自己的缺点。从人性的角度来讲,人们总是对负面的新闻感兴趣,因此在面试时,面试官会千方百计的发现你的缺点,你的弱项,如果我们主动将缺点暴露给对方,那么产生的影响往往是负面的。
细节决定成败,一个简单的自我介绍虽然只有短短的几分钟,但是其内容却包罗万象,因此在面试时自我介绍的完美与否是举足轻重的。
二、大数据面试要准备一些常见的面试题:
1、你会Java语言吗?熟悉到什么程度?
2、你最喜欢的编程语言是什么?为什么?
3、处理过的最大的数据量?你是如何处理他们的?处理的结果如何。
2、在处理大数据过程中,如何保证得到期望值?
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
7、如何判别maprece过程有好的负载均衡?什么是负载均衡?
8、Spark和Hive的区别,以及Spark和Hive的数据倾斜调优问题?
9、Hive和Hbase的区别?
10、MapRece的思想,以及MapRece调优问题?
11、你所了解的开源网站?
12、有两个集群,每个集群有3个节点,使用hive分析相同的数据,sql语句完全一样,一个集群的分析结果比另外一个慢的多,给出造成这种现象的可能原因?
13、Hbase的优化?
14、集群的版本,以及集群的瓶颈问题?
15、CRM项目,怎么跟Spark结合?
16、如何创建一个关键字分类?
17、海量日志数据,提取出某日访问网络次数最多的那个IP?
18、Hadoop和Spark处理数据时,出现内存溢出的处理方法?
19、有一个1G大小的一个文件,里面每一是一个词,词的大小不超过16字节,内存大小限制大小1M,返回频率最高的50个词。
20、你是如何处理缺少数据的?你是推荐使用什么样的处理技术,或者说你是用什么样的技术处理呢?