⑴ 大数据开发工程师面试主要面试哪些内容
只要数据量级大(或者是数据复杂度,或者是其他方面的量级大)到普通的处理方法无法处理地实际上都可以算作是大数据开发,只不过一般大数据开发目前招聘的很多都是做数据处理的。有如下几个方向:1)数据挖掘是大数据处理地一个方向,这里做数据挖掘要有一些统计学基础才能做,目前数据挖掘的方向其实不是很明确,和人工智能,机械学习也有一些关系,如果是做数据挖掘,基本的数据会由数据平台部或数据运维部门提供2)数据平台的开发(这里的平台开发在不同公司的内容又不一样,小公司可能是根据公司业务做一套完整的数据分析系统,大公司这个职位可能是一些开源组件的二次开发)3)大数据运维方向:比如hadoop,spark集群的运维,涉及到ha等内容4)大数据分析方向:有的公司会将职责细化,招聘一些专业的分析人员,去写hql或者是其它类sql来对数据进行分析最后,其实大数据平台相关工作的划分并不清晰,行业里没有统一标准,大公司小公司情况不同。关于技术方向更是用什么的都有,比如有的公司用spark,有的用impala,还有的用clickhouse等,最近flink也逐渐进入大家的视野。所以在找工作时应该要考虑的是自己的强项是什么,同时在选择工作时要考虑到这个工作在做了三五年后,从这家公司出来还能不能找到工作。我个人的建议是如果你会java,那不要脱离java(scala)语言去做大数据开发,也不要专业只去做数据分析工作,大数据行业目前仍旧有一些泡沫(个人看法),很多组件仍旧是基于java的,一旦脱离java语言本身,那源码阅读,二次开发都会有问题,同时生产环境自动化去执行一些代码也是需要语言支持的,或者最差的预估,如果大数据行业严重缩水(比如某些公司可以分析,可以挖掘的内容有限),可以随时转到java服务器开发方向。
⑵ 有面试过百度或者在百度任职的大数据开发岗位的同志么
以下是某位求职者面经:
网络面试的都是偏技术方面的问题,上来问回有关系统方面的问题答,我说我没学过,然后他就问算法了,他们偏向于一题多解,给出方案来还不算,要不断优化,得到最优的解决方案,可惜我答的不是特别好,期间还让编写了一个小程序,整个过程大概一个小时,大部分时间都是我在推导题或者编程序。
⑶ 尚硅谷大数据面试都会问些什么
其实不管是哪家公司面试,都是根据你的简历来对你进行提问,所以自己简历上面写的知识点都要全部对答如流。
还有慎用精通这样的字眼,工作五年以上的人,也不敢说自己对哪一方面能够达到精通的地步。
尚硅谷大数据面试的一些基本问题总结如下:
1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?
2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?
3.讲一下Maprece或者hdfs的原理和机制。map读取数据分片。
4.shuffle 是什么? 怎么调优?
5.项目用什么语言写? Scala? Scala的特点? 和Java的区别?
6.理论基础怎么样,比如数据结构,里面的快速排序,或者,树? 讲一讲你了解的树的知识?
7.数学怎么样呢?
8.讲一下数据库,SQl ,左外连接, 原理,实现?
9.还了解过数据的什么知识? 数据库引擎?
10.Hadoop的机架怎么配置的?
11.Hbase的设计有什么心得?
12.Hbase的操作是用的什么API还是什么工具?
13.对调度怎么理解.? 用什么工具吗?
14.用kettle 这种工具还是 自己写程序? 你们公司是怎么做的?
15.你们数据中心开发周期是多长?
16.你们hbase里面是存一些什么数据
⑷ 怎么面试大数据分析师
1、考察对数据的敏感度。
面试的时候,数据部门经理问一些生活中的数据的问题,一个优秀的数据分析师对数据有很强的敏感度,生活中常见的数据,你直观的感受往往能反应出你的资质。
2、数学基本概念和统计学方法。
遇到的有排列组合的问题的,还有指数衰减的定义等等。或者直接给一个问题或者数据,问问你打算用什么样的方法怎样去分析。在给你数据的时候,一定要记得说数据预处理!这一点非常重要,这样会让人觉得你的回答逻辑清楚,有条有理。如果想从事与数据科学相关的岗位,需要学习的数据知识可以参考成都加米谷大数据培训机构的:想从事数据科学相关岗位,这些数学基础“必备”。
3、编程能力。
你一定要有自己熟练的软件,常问的问题是,你一般用excel干什么,常用的函数有哪些?你是否用过数据透视表?是够用过宏?你平时多久用一次R?你是否用过或了解过并行?等等关于软件的问题。在面试小公司时,HR会可能直接给你一个数据进行数据分析,题目一般给的都不太难。
⑸ 美国大数据工程师面试攻略有哪些
如果说硅谷成功是有原因的,我觉得有两点。地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国人,印度人,犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题,在Stanford有个说法空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator,各种技术forum,meetup,创业导师,都很活跃。资本的力量功不可没,早年VC通过投资,收购,上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个facebook,下一个musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,就有很多硬件公司的辉煌Intel,Oracle,Apple,Cisco成功上市,10年前,互联网的兴起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千。疯狂的估值背后也改变了世界。我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个。
⑹ shopee大数据sre面经
我对shopee是有一些情怀在里面的,早在17年的时候我就面试过它们的大数据岗位(base新加坡),年少轻狂的我当时没有针对性的好好复习,且项目积累的也不够,导致第二轮就被pass了。现在随着年龄的增长,我已经断了出国的念想,最终选择了深圳shopee作为此次跑路的目标公司。
本次跳槽,我制定了一个详细的计划,从复习内容到时间把控两个方面结合起来。大体情况如下:
时间安排上:
具体到一天的时间,因为是在职情况,所以系统的时间只能到晚上,一般就强迫自己从21:00复习到23:30左右。
20210301找人内推简历到shopee-->20210308一面-->20210312二面-->20210317三面-->20210324 offer沟通,然后第二天收到offer
一面:mentor面试,以基础为主
1、kafka的rebalance过程
2、zkfc的fence机制
3、jvm内存模型以及gc算法,垃圾收集器
4、clickhouse表引擎
5、spark的stage划分
6、spark straming与flink的区别
7、通讯网络上的tcp三次握手,四次挥手
8、常见数据结构,hashmap
9、算法题,leetcode179
10、Linux的文件系统设计,以及常用命令
二面:leader面试,以项目为主
1、hdfs读写流程,yarn调度器区别以及标签功能,hive倾斜问题以及小文件优化,spark资源优化
2、集群监控报警如何做的,不同组件的报警策略是什么,报警信息是否有合并
3、数据治理怎么做的,元数据管理,数据生命周期管理以及数据质量
4、数据迁移项目担任的角色,讲下迁移背景以及采用的工具,具体实施方式是怎样,过程中遇到的问题有哪些
三面:boss面试,以工作经历为主
1、自己对哪个组件非常熟(hdfs),数据规模怎样,做了哪些优化,namenode内部结构是怎样,它的qps是多少,hdfs关注的监控指标有哪些
2、工作中处理过的事故是什么,介绍下场景,当时如何解决的,问题是如何定位的,有没有什么更好的解决方式彻底解决
3、对大数据sre的理解
4、然后boss简单介绍了下shopee的大数据团队架构,个人的成长路线等。
四面:hr面,工作经历及谈薪
简单自我介绍,各个阶段离职的原因,期望薪资,目前offer情况等。
最后就是背调了,这个阶段一般要一周左右的时间,最后就是入职了。
总的来说,shopee的面试偏基础与自己的实际工作经历,考察范围比较广,需要掌握基本的网络知识,熟练编码能力,精通专业技能。最后祝愿所有跑路的同学们都拿到自己理想的offer!
(shopee最近很缺人哦,有想法的同学可查看: https://mp.weixin.qq.com/s?__biz=MzkzMzIzNDU0MA==&mid=2247483747&idx=1&sn=&chksm=52ea14&token=90945026&lang=zh_CN#rd )
⑺ 美国大数据工程师面试攻略
项目数据分析师分享:美国大数据工程师面试攻略
方法/步骤
先做一个自我介绍,本科南开后,加入了一个创业公司kuxun,做实时信息检索,后来进入网络基础架构组,搭建了Bai App Engine的早期版本,随后去Duke大学留学,在攻读硕士期间,做跟Hadoop大数据相关的研究项目Starfish,之后在Amazon EC2部门实习,了解它们的内部架构,毕业后加入Linkedin,做广告组的架构,涉及Hadoop调优,Data Pipeline, Offline/Online, 实时系统。最新是在Coursera从事数据工程师工作。在多年工作中,除了对技术的不懈追求,也积累了大量的面试经验,从国内的一线互联网网络,阿里巴巴,奇虎,人人,到美国一线公司Facebook,Google,Linkedin,Twitter,Amazon,到热门Startup,Uber,Pinterest,Airbnb,Box,Dropbox,Snapchat,Houzz,拿到10+ offer,并且在Linkedin期间也面试过100+候选人,参与面试题制定,乐于分享并帮助很多人成功求职,实现目标。
我们看一下这张硅谷地图,它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,就有很多硬件公司的辉煌Intel,Oracle,Apple,Cisco成功上市,10年前,互联网的兴起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千。疯狂的估值背后也改变了世界。
如果说硅谷成功是有原因的,我觉得有两点。地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国人,印度人,犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题,在Stanford有个说法空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator,各种技术forum,meetup,创业导师,都很活跃。资本的力量功不可没,早年VC通过投资,收购,上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个facebook,下一个musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。
我就拿Linkedin作为例子,介绍高科技公司(FLG)是什么样子。它是成立2003年的职业社交网站。在10年的发展中,也不是一下子爆发的,目前有3亿的全球用户,虽然跟Facebook,Google 10亿+用户没法比,但是它有很好的护城河,用户定位高端精准,单位价值高。这张照片中左边这位是创始人Reid Hoffman,是Paypal黑帮成员,在硅谷也是呼风唤雨的大佬,目前是董事和投资人。中间这位是CEO Jeff,2013年被Glassdoor评为最佳CEO,作为职业经理人,成功帮助linkedin高速成长,他最喜欢提到transformation,希望我们每个员工能挑战自我,在各自岗位上进化。Linkedin提供了员工很好的福利,有号称湾区最佳的免费食堂,每个月一次的in day,hack day, 帮助员工内部创业的incumbator计划。它特点是数据驱动的开发产品,比如 People you may know, Job you may be interested, 我做过Sponroed Ads 都是需要很强数据背景和data scientist的支持。它的Biz model也很独特,有3个line,面向公司的招聘服务,面向广告商的市场服务,面向个人的订阅服务,还有最新Sales Solution,因为这么多可能性,成为华尔街的宠儿。
说硅谷,除了那些已经成功的大公司,不得不说现在最新的创业动向,这些代表了未来下一个FLG。我总结了一些领域和代表公司:云计算(box, dropbox),大数据(cloudera),消费互联网(pinterest),健康(fitbit),通讯(snapchat),支付(square),生活(uber)。 这里是华尔街网站更新的最新融资规模,比如Uber就达到18Billion的估值,我当时拿到offer没去,还是觉得很疯狂,如果细看这张表,大家可以看到硅谷(蓝色)尤其是旧金山它们的融资规模远远大于其他地区,还是地理决定论。而在国内的两家xiaomi,jingdong都是在北京,而最近大家看到一些泡沫论,说什么阿里巴巴上市是否美股到顶,经纬VC创始人也提醒我们泡沫的风险,我无法判断。如果能参与到下一波浪潮里面去是很过瘾的。我推荐大家去看看 <浪潮之巅>,<奇点临近>,我还是很期待未来20年的技术革命。
我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,big data is like teenage talking about sex, nobody know how to do it. 其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个,如果你用不好,你的压力很大的,举个例子,你用某个开源数据库,发现它偶尔有数据丢失怎么办,如果这是线上服务,你不断收到报警,这时候你当时选用它的优点 scalable,容错性都没意义了。接着说大数据,这里面Hadoop作为行业标准,我面过的除了Google,微软不用,几乎所有的公司都在用,建议大家利用这个机会。这里面有三巨头,cloudera是老牌Hadoop咨询公司,Hadoop的创始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 编码方式高效而著名,它们都是融了巨资,模式也很像,先推出社区免费版,但有个商业版提供更好的管理。 而今年出现一匹黑马,Spark,简单说就是内存级别的计算,比Hadoop框架里能节约IO,利用缓存,能适应批处理,迭代,流式计算。
这里看一下它的生态系统,如何学Hadoop是个循序渐进过程,先要理解学习它的core系统,HDFS, MapRece, Common,在外围有无数的系统工具方便开发,我个人用过的是 Avro作为数据格式,Zookeeper作为选主的高可靠性的组件,Solr作为搜索接口,Pig搭建工作流,Hive 数据仓库查询,Oozie管理工作流,HBase 作为KV 分布式存储,mahout数据挖掘的库,Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。
而Hadoop本身也是个进化过程,几年前0.19版本,到0.20, 0.23分流成Yarn架构最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的,但总体上Hadoop 2.0 是趋势,因为它有Yarn这样分离的资源管理平台,可以以插件的方式开发上面的Application,解放了生产力,而像Spark,Storm这些新型处理器也是支持Hadoop 2.0的。这里是Hortonworks它们提出来的社区版本架构,可以说标准的制定者,一流的公司制定标准,其他的公司一般用只能用它们提供的稳定版,没有多少话语权。但从事大数据,并不见得是要去这些制定标准的公司,大量的应用也是非常考验架构的灵活性。并且能看到实际的产品,很有成就感。
说到今年火的,还是要看Spark。从去年至今,已经开了2届Spark大会,上千人的规模,无数人对比Hadoop 100倍的性能提升而兴奋。这里说它的背景是诞生于Berkeley的Amplab,它们有个很有名的BDAS(Berkeley Data Analytics Stack),目前Spark已经成为Apache的顶级项目。去年这个实验室的教授跟学生出去成立Databricks公司,拉到两轮上千万的风投,有人成Spark是Hadoop的终结者吗?我看今年Spark大会上,所有的Hadoop大佬公司都是鼎力支持,像Cloudrea甚至放弃impala的一线支持而转变成Spark。如果这么发展下去,星星之火可以燎原啊。它里面用到Scala是一种函数式语言。里面的组件也很多,有Shark支持SQL类似Hive,有Spark Streaming,MLlib,Graphx,SparkR,BlinkDB。它的核心数据结构是RDD,可以跑在各种分布式系统上。总体上是个包容性+侵略性的系统。我个人也很看好它们的发展。
⑻ 面试大数据工作要做好哪些准备
1、了解要面试的公司
对要面试的公司进行深入的研究了解,包括公司的企业文化,企业的发展状况,从而在面试时轻松面试,成功的概率自然会提高很多。
2、在面试中要介绍自己对于团队精神的认知
面试过程之中有一些招聘方会问到团队精神的问题,但有一些则不会问到这方面的问题,但不会问到这样问题的招聘人员并不表示他对于这样的问题并不关注,要知道在大数据开发技术方面,很多地方都是需要团队协作的。因此,在团队协作方面有着极高的要求,所以我们在招聘过程中一定要讲解到自己对于团队精神理念的认知,以及在团队协作表现方面的能力如何,这会让我们求职成功的概率更高。
3、在大数据面试的时候一定要将自己的项目经验展示出来
我们应聘的工作是大数据方面的工作,因此想要拥有更高的面试成功机会,那么就必须要有相应的项目,在大数据面试技巧这个问题上,我们需要关注的核心要点就是自己的项目经验,如果你本身只有大数据的理论知识,而没有项目实战经验,这种状态之下能够成功应聘上的概率自然降低了很多,为了规避这方面的问题产生,我们一定要做些大数据的项目,积攒项目经验,这样面试的时候也有话说。
⑼ 大数据就业前景如何哪些公司需要大数据人才
虽然19年返纤互联网行情有点寒冷,不过大数据目前就业前景方面还不错。我是今年三月底开始找大数据相关工作的,投递的互联网公司都给了面试机会,不管是现在还是未来,我个人认为大数据的就业前景都可以。
至于哪些公司需要大数据人才,只要公司有数据量非常大的业务,都需要大数据人才,比如阿里巴巴、腾讯、网络、头条、美团等等互联网公司。这些公司的数据体量都非常大,数据量大肯定就需要大数据技术来解决存储和计算的问题,相应的,就需要大数据人才。
互联网大厂对于大数据人才的要求,对于不同工作岗位类型,其要求是不一样的。对于大数据工程类型开发师而言,更偏向于你对于大数据组件的使用和原理理解,强调你的工程化的经验、思考。对于这些组件,你要能够灵活的进行使用,同时在使用的过程中,要有架构的思想在里面,要做好复用和通用性。下面是某个大厂对于大数据偏工程类岗位的要求:
对于大数据数仓研发的岗位,这个岗位第一点要求你对数据仓库的理论要有一定的认识以及理论实践,同时需要你能够有ETL(数据加工处理)的能力。对Hadoop的MapRece框架、HDFS存储要有一定的了解。如果对于Hive、HBase有了解肯定更好。可以看到,大数据数仓研发的岗位,偏向于数据类处理技能和理论的要求。
我的建议,如果你个人内心对于大衫轿数据方向有一定兴趣,但是担心其就业前景不好的话,我认为你可以完全可以转到大数据方向的岗位。目或世肆前国内大的互联网公司都有大数据相关岗位的招聘,同样,很多小的互联网公司其实也在使用大数据技术,所以你完全没必要担心大数据的就业前景不好。
根据我今年的面试经验,如果你在大数据方面的技术非常的扎实,同时你的Java语言方面和数据结构的基础很好,你完全可以找到一个很好的大数据工作。互联网行业讲究的是你的技术和视野,希望你能够好好准备,拿到自己想要的Offer。
我是Lake,专注大数据技术原理、人工智能、数据库技术、程序员经验分享,如果我的问答对你有帮助的话,希望你能点赞
⑽ 大数据开发人员面试常会被问什么问题
1、你自身的优点
这个问题不仅仅是在大数据面试当中常常被问,在各行各业的面试中都经常出现。所以面试者要尽可能说一些和工作相关的优点,比如“学习能力强”“能抗住压力”等,再举一个自己之前工作的例子进行证明,这会让面试官觉得很真实。
2、为什么要离开上家公司
其实面试官问这种问题的时候,就是在看你人品。很多人觉得说上家公司不好的话才是好的,其实不是的,离职见人品,如果你能在面试官面前说上家公司的不好,也能在下家公司说这家公司的不好。所以在面试官问及这个问题的时候,最好结合自身的发展来说。
3、未来几年的规划
回答这个问题的时候,不要说自己不知道、不清楚,会显得你这个人没有目标和方向。所以如果应聘者对这个问题不知道怎么回答的时候,可以跟面试官交流一下现在大数据行业的职业目标以及准备做些什么去实现这个目标,至少要让面试官看到应聘者对选择这个职业的热情,甚至是对选择这份工作的热情。