⑴ 大數據開發工程師面試主要面試哪些內容
只要數據量級大(或者是數據復雜度,或者是其他方面的量級大)到普通的處理方法無法處理地實際上都可以算作是大數據開發,只不過一般大數據開發目前招聘的很多都是做數據處理的。有如下幾個方向:1)數據挖掘是大數據處理地一個方向,這里做數據挖掘要有一些統計學基礎才能做,目前數據挖掘的方向其實不是很明確,和人工智慧,機械學習也有一些關系,如果是做數據挖掘,基本的數據會由數據平台部或數據運維部門提供2)數據平台的開發(這里的平台開發在不同公司的內容又不一樣,小公司可能是根據公司業務做一套完整的數據分析系統,大公司這個職位可能是一些開源組件的二次開發)3)大數據運維方向:比如hadoop,spark集群的運維,涉及到ha等內容4)大數據分析方向:有的公司會將職責細化,招聘一些專業的分析人員,去寫hql或者是其它類sql來對數據進行分析最後,其實大數據平台相關工作的劃分並不清晰,行業里沒有統一標准,大公司小公司情況不同。關於技術方向更是用什麼的都有,比如有的公司用spark,有的用impala,還有的用clickhouse等,最近flink也逐漸進入大家的視野。所以在找工作時應該要考慮的是自己的強項是什麼,同時在選擇工作時要考慮到這個工作在做了三五年後,從這家公司出來還能不能找到工作。我個人的建議是如果你會java,那不要脫離java(scala)語言去做大數據開發,也不要專業只去做數據分析工作,大數據行業目前仍舊有一些泡沫(個人看法),很多組件仍舊是基於java的,一旦脫離java語言本身,那源碼閱讀,二次開發都會有問題,同時生產環境自動化去執行一些代碼也是需要語言支持的,或者最差的預估,如果大數據行業嚴重縮水(比如某些公司可以分析,可以挖掘的內容有限),可以隨時轉到java伺服器開發方向。
⑵ 有面試過百度或者在百度任職的大數據開發崗位的同志么
以下是某位求職者面經:
網路面試的都是偏技術方面的問題,上來問回有關系統方面的問題答,我說我沒學過,然後他就問演算法了,他們偏向於一題多解,給出方案來還不算,要不斷優化,得到最優的解決方案,可惜我答的不是特別好,期間還讓編寫了一個小程序,整個過程大概一個小時,大部分時間都是我在推導題或者編程序。
⑶ 尚矽谷大數據面試都會問些什麼
其實不管是哪家公司面試,都是根據你的簡歷來對你進行提問,所以自己簡歷上面寫的知識點都要全部對答如流。
還有慎用精通這樣的字眼,工作五年以上的人,也不敢說自己對哪一方面能夠達到精通的地步。
尚矽谷大數據面試的一些基本問題總結如下:
1.講講你做的過的項目。 項目里有哪些 難點重點注意點呢?
2.講講多線程吧, 要是你,你怎麼實現一個線程池呢?
3.講一下Maprece或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什麼? 怎麼調優?
5.項目用什麼語言寫? Scala? Scala的特點? 和Java的區別?
6.理論基礎怎麼樣,比如數據結構,裡面的快速排序,或者,樹? 講一講你了解的樹的知識?
7.數學怎麼樣呢?
8.講一下資料庫,SQl ,左外連接, 原理,實現?
9.還了解過數據的什麼知識? 資料庫引擎?
10.Hadoop的機架怎麼配置的?
11.Hbase的設計有什麼心得?
12.Hbase的操作是用的什麼API還是什麼工具?
13.對調度怎麼理解.? 用什麼工具嗎?
14.用kettle 這種工具還是 自己寫程序? 你們公司是怎麼做的?
15.你們數據中心開發周期是多長?
16.你們hbase裡面是存一些什麼數據
⑷ 怎麼面試大數據分析師
1、考察對數據的敏感度。
面試的時候,數據部門經理問一些生活中的數據的問題,一個優秀的數據分析師對數據有很強的敏感度,生活中常見的數據,你直觀的感受往往能反應出你的資質。
2、數學基本概念和統計學方法。
遇到的有排列組合的問題的,還有指數衰減的定義等等。或者直接給一個問題或者數據,問問你打算用什麼樣的方法怎樣去分析。在給你數據的時候,一定要記得說數據預處理!這一點非常重要,這樣會讓人覺得你的回答邏輯清楚,有條有理。如果想從事與數據科學相關的崗位,需要學習的數據知識可以參考成都加米穀大數據培訓機構的:想從事數據科學相關崗位,這些數學基礎「必備」。
3、編程能力。
你一定要有自己熟練的軟體,常問的問題是,你一般用excel干什麼,常用的函數有哪些?你是否用過數據透視表?是夠用過宏?你平時多久用一次R?你是否用過或了解過並行?等等關於軟體的問題。在面試小公司時,HR會可能直接給你一個數據進行數據分析,題目一般給的都不太難。
⑸ 美國大數據工程師面試攻略有哪些
如果說矽谷成功是有原因的,我覺得有兩點。地理位置是得天獨厚吸引大量人才,這里有Stanford和加州州立高校提供智力庫的支持,在矽谷可以看到來自全世界的最聰明的人,中國人,印度人,猶太人構成這些Engineer的主力。雖然國內做技術自嘲為碼農,但在矽谷成為一個優秀工程師還是收獲頗豐。另一方面創業是一個永恆的話題,在Stanford有個說法空氣中都飄揚中創業的味道,一些早期員工通過上市套現又積累經驗成了天使投資,Y Combinator,各種技術forum,meetup,創業導師,都很活躍。資本的力量功不可沒,早年VC通過投資,收購,上市放大形成一個雪球效應。大家總喜歡問什麼是next big thing,哪一個是下一個facebook,下一個musk,根據統計10年能成就一個千億以上的公司,目前這個進程正在縮短。它坐落於美國加州,從聖何塞到舊金山的狹長地帶,中間是San francisco bay,簡稱灣區。它的由來是這邊有計算機核心處理器中離不開的硅,30年來,矽谷就發展成為無數技術性創業公司的搖籃。在20多年前,就有很多硬體公司的輝煌Intel,Oracle,Apple,Cisco成功上市,10年前,互聯網的興起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶搖直上,成為美股高科技股的領頭羊。這些公司的市值從幾十billion到幾百billion,PE從負數到上千。瘋狂的估值背後也改變了世界。我個人熱愛大數據,在矽谷這也是大家津津樂道的,有個笑話,其實大家還是興趣驅動就好,不要那麼功利,大數據技術涉及太多,平常工作中也是慢慢積累,有無數的坑和技術細節需要克服。並不是說那個技術最熱就要用哪個。
⑹ shopee大數據sre面經
我對shopee是有一些情懷在裡面的,早在17年的時候我就面試過它們的大數據崗位(base新加坡),年少輕狂的我當時沒有針對性的好好復習,且項目積累的也不夠,導致第二輪就被pass了。現在隨著年齡的增長,我已經斷了出國的念想,最終選擇了深圳shopee作為此次跑路的目標公司。
本次跳槽,我制定了一個詳細的計劃,從復習內容到時間把控兩個方面結合起來。大體情況如下:
時間安排上:
具體到一天的時間,因為是在職情況,所以系統的時間只能到晚上,一般就強迫自己從21:00復習到23:30左右。
20210301找人內推簡歷到shopee-->20210308一面-->20210312二面-->20210317三面-->20210324 offer溝通,然後第二天收到offer
一面:mentor面試,以基礎為主
1、kafka的rebalance過程
2、zkfc的fence機制
3、jvm內存模型以及gc演算法,垃圾收集器
4、clickhouse表引擎
5、spark的stage劃分
6、spark straming與flink的區別
7、通訊網路上的tcp三次握手,四次揮手
8、常見數據結構,hashmap
9、演算法題,leetcode179
10、Linux的文件系統設計,以及常用命令
二面:leader面試,以項目為主
1、hdfs讀寫流程,yarn調度器區別以及標簽功能,hive傾斜問題以及小文件優化,spark資源優化
2、集群監控報警如何做的,不同組件的報警策略是什麼,報警信息是否有合並
3、數據治理怎麼做的,元數據管理,數據生命周期管理以及數據質量
4、數據遷移項目擔任的角色,講下遷移背景以及採用的工具,具體實施方式是怎樣,過程中遇到的問題有哪些
三面:boss面試,以工作經歷為主
1、自己對哪個組件非常熟(hdfs),數據規模怎樣,做了哪些優化,namenode內部結構是怎樣,它的qps是多少,hdfs關注的監控指標有哪些
2、工作中處理過的事故是什麼,介紹下場景,當時如何解決的,問題是如何定位的,有沒有什麼更好的解決方式徹底解決
3、對大數據sre的理解
4、然後boss簡單介紹了下shopee的大數據團隊架構,個人的成長路線等。
四面:hr面,工作經歷及談薪
簡單自我介紹,各個階段離職的原因,期望薪資,目前offer情況等。
最後就是背調了,這個階段一般要一周左右的時間,最後就是入職了。
總的來說,shopee的面試偏基礎與自己的實際工作經歷,考察范圍比較廣,需要掌握基本的網路知識,熟練編碼能力,精通專業技能。最後祝願所有跑路的同學們都拿到自己理想的offer!
(shopee最近很缺人哦,有想法的同學可查看: https://mp.weixin.qq.com/s?__biz=MzkzMzIzNDU0MA==&mid=2247483747&idx=1&sn=&chksm=52ea14&token=90945026&lang=zh_CN#rd )
⑺ 美國大數據工程師面試攻略
項目數據分析師分享:美國大數據工程師面試攻略
方法/步驟
先做一個自我介紹,本科南開後,加入了一個創業公司kuxun,做實時信息檢索,後來進入網路基礎架構組,搭建了Bai App Engine的早期版本,隨後去Duke大學留學,在攻讀碩士期間,做跟Hadoop大數據相關的研究項目Starfish,之後在Amazon EC2部門實習,了解它們的內部架構,畢業後加入Linkedin,做廣告組的架構,涉及Hadoop調優,Data Pipeline, Offline/Online, 實時系統。最新是在Coursera從事數據工程師工作。在多年工作中,除了對技術的不懈追求,也積累了大量的面試經驗,從國內的一線互聯網網路,阿里巴巴,奇虎,人人,到美國一線公司Facebook,Google,Linkedin,Twitter,Amazon,到熱門Startup,Uber,Pinterest,Airbnb,Box,Dropbox,Snapchat,Houzz,拿到10+ offer,並且在Linkedin期間也面試過100+候選人,參與面試題制定,樂於分享並幫助很多人成功求職,實現目標。
我們看一下這張矽谷地圖,它坐落於美國加州,從聖何塞到舊金山的狹長地帶,中間是San francisco bay,簡稱灣區。它的由來是這邊有計算機核心處理器中離不開的硅,30年來,矽谷就發展成為無數技術性創業公司的搖籃。在20多年前,就有很多硬體公司的輝煌Intel,Oracle,Apple,Cisco成功上市,10年前,互聯網的興起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶搖直上,成為美股高科技股的領頭羊。這些公司的市值從幾十billion到幾百billion,PE從負數到上千。瘋狂的估值背後也改變了世界。
如果說矽谷成功是有原因的,我覺得有兩點。地理位置是得天獨厚吸引大量人才,這里有Stanford和加州州立高校提供智力庫的支持,在矽谷可以看到來自全世界的最聰明的人,中國人,印度人,猶太人構成這些Engineer的主力。雖然國內做技術自嘲為碼農,但在矽谷成為一個優秀工程師還是收獲頗豐。另一方面創業是一個永恆的話題,在Stanford有個說法空氣中都飄揚中創業的味道,一些早期員工通過上市套現又積累經驗成了天使投資,Y Combinator,各種技術forum,meetup,創業導師,都很活躍。資本的力量功不可沒,早年VC通過投資,收購,上市放大形成一個雪球效應。大家總喜歡問什麼是next big thing,哪一個是下一個facebook,下一個musk,根據統計10年能成就一個千億以上的公司,目前這個進程正在縮短。
我就拿Linkedin作為例子,介紹高科技公司(FLG)是什麼樣子。它是成立2003年的職業社交網站。在10年的發展中,也不是一下子爆發的,目前有3億的全球用戶,雖然跟Facebook,Google 10億+用戶沒法比,但是它有很好的護城河,用戶定位高端精準,單位價值高。這張照片中左邊這位是創始人Reid Hoffman,是Paypal黑幫成員,在矽谷也是呼風喚雨的大佬,目前是董事和投資人。中間這位是CEO Jeff,2013年被Glassdoor評為最佳CEO,作為職業經理人,成功幫助linkedin高速成長,他最喜歡提到transformation,希望我們每個員工能挑戰自我,在各自崗位上進化。Linkedin提供了員工很好的福利,有號稱灣區最佳的免費食堂,每個月一次的in day,hack day, 幫助員工內部創業的incumbator計劃。它特點是數據驅動的開發產品,比如 People you may know, Job you may be interested, 我做過Sponroed Ads 都是需要很強數據背景和data scientist的支持。它的Biz model也很獨特,有3個line,面向公司的招聘服務,面向廣告商的市場服務,面向個人的訂閱服務,還有最新Sales Solution,因為這么多可能性,成為華爾街的寵兒。
說矽谷,除了那些已經成功的大公司,不得不說現在最新的創業動向,這些代表了未來下一個FLG。我總結了一些領域和代表公司:雲計算(box, dropbox),大數據(cloudera),消費互聯網(pinterest),健康(fitbit),通訊(snapchat),支付(square),生活(uber)。 這里是華爾街網站更新的最新融資規模,比如Uber就達到18Billion的估值,我當時拿到offer沒去,還是覺得很瘋狂,如果細看這張表,大家可以看到矽谷(藍色)尤其是舊金山它們的融資規模遠遠大於其他地區,還是地理決定論。而在國內的兩家xiaomi,jingdong都是在北京,而最近大家看到一些泡沫論,說什麼阿里巴巴上市是否美股到頂,經緯VC創始人也提醒我們泡沫的風險,我無法判斷。如果能參與到下一波浪潮裡面去是很過癮的。我推薦大家去看看 <浪潮之巔>,<奇點臨近>,我還是很期待未來20年的技術革命。
我個人熱愛大數據,在矽谷這也是大家津津樂道的,有個笑話,big data is like teenage talking about sex, nobody know how to do it. 其實大家還是興趣驅動就好,不要那麼功利,大數據技術涉及太多,平常工作中也是慢慢積累,有無數的坑和技術細節需要克服。並不是說那個技術最熱就要用哪個,如果你用不好,你的壓力很大的,舉個例子,你用某個開源資料庫,發現它偶爾有數據丟失怎麼辦,如果這是線上服務,你不斷收到報警,這時候你當時選用它的優點 scalable,容錯性都沒意義了。接著說大數據,這裡面Hadoop作為行業標准,我面過的除了Google,微軟不用,幾乎所有的公司都在用,建議大家利用這個機會。這裡面有三巨頭,cloudera是老牌Hadoop咨詢公司,Hadoop的創始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 編碼方式高效而著名,它們都是融了巨資,模式也很像,先推出社區免費版,但有個商業版提供更好的管理。 而今年出現一匹黑馬,Spark,簡單說就是內存級別的計算,比Hadoop框架里能節約IO,利用緩存,能適應批處理,迭代,流式計算。
這里看一下它的生態系統,如何學Hadoop是個循序漸進過程,先要理解學習它的core系統,HDFS, MapRece, Common,在外圍有無數的系統工具方便開發,我個人用過的是 Avro作為數據格式,Zookeeper作為選主的高可靠性的組件,Solr作為搜索介面,Pig搭建工作流,Hive 數據倉庫查詢,Oozie管理工作流,HBase 作為KV 分布式存儲,mahout數據挖掘的庫,Cassandra nosql 資料庫。我建議初學的考慮Chinahadoop的課程。
而Hadoop本身也是個進化過程,幾年前0.19版本,到0.20, 0.23分流成Yarn架構最後進化成Hadoop2.0, Hadoop1.0 和 2.0 它們的介面和組件是完全不同的,但總體上Hadoop 2.0 是趨勢,因為它有Yarn這樣分離的資源管理平台,可以以插件的方式開發上面的Application,解放了生產力,而像Spark,Storm這些新型處理器也是支持Hadoop 2.0的。這里是Hortonworks它們提出來的社區版本架構,可以說標準的制定者,一流的公司制定標准,其他的公司一般用只能用它們提供的穩定版,沒有多少話語權。但從事大數據,並不見得是要去這些制定標準的公司,大量的應用也是非常考驗架構的靈活性。並且能看到實際的產品,很有成就感。
說到今年火的,還是要看Spark。從去年至今,已經開了2屆Spark大會,上千人的規模,無數人對比Hadoop 100倍的性能提升而興奮。這里說它的背景是誕生於Berkeley的Amplab,它們有個很有名的BDAS(Berkeley Data Analytics Stack),目前Spark已經成為Apache的頂級項目。去年這個實驗室的教授跟學生出去成立Databricks公司,拉到兩輪上千萬的風投,有人成Spark是Hadoop的終結者嗎?我看今年Spark大會上,所有的Hadoop大佬公司都是鼎力支持,像Cloudrea甚至放棄impala的一線支持而轉變成Spark。如果這么發展下去,星星之火可以燎原啊。它裡面用到Scala是一種函數式語言。裡面的組件也很多,有Shark支持SQL類似Hive,有Spark Streaming,MLlib,Graphx,SparkR,BlinkDB。它的核心數據結構是RDD,可以跑在各種分布式系統上。總體上是個包容性+侵略性的系統。我個人也很看好它們的發展。
⑻ 面試大數據工作要做好哪些准備
1、了解要面試的公司
對要面試的公司進行深入的研究了解,包括公司的企業文化,企業的發展狀況,從而在面試時輕松面試,成功的概率自然會提高很多。
2、在面試中要介紹自己對於團隊精神的認知
面試過程之中有一些招聘方會問到團隊精神的問題,但有一些則不會問到這方面的問題,但不會問到這樣問題的招聘人員並不表示他對於這樣的問題並不關注,要知道在大數據開發技術方面,很多地方都是需要團隊協作的。因此,在團隊協作方面有著極高的要求,所以我們在招聘過程中一定要講解到自己對於團隊精神理念的認知,以及在團隊協作表現方面的能力如何,這會讓我們求職成功的概率更高。
3、在大數據面試的時候一定要將自己的項目經驗展示出來
我們應聘的工作是大數據方面的工作,因此想要擁有更高的面試成功機會,那麼就必須要有相應的項目,在大數據面試技巧這個問題上,我們需要關注的核心要點就是自己的項目經驗,如果你本身只有大數據的理論知識,而沒有項目實戰經驗,這種狀態之下能夠成功應聘上的概率自然降低了很多,為了規避這方面的問題產生,我們一定要做些大數據的項目,積攢項目經驗,這樣面試的時候也有話說。
⑼ 大數據就業前景如何哪些公司需要大數據人才
雖然19年返纖互聯網行情有點寒冷,不過大數據目前就業前景方面還不錯。我是今年三月底開始找大數據相關工作的,投遞的互聯網公司都給了面試機會,不管是現在還是未來,我個人認為大數據的就業前景都可以。
至於哪些公司需要大數據人才,只要公司有數據量非常大的業務,都需要大數據人才,比如阿里巴巴、騰訊、網路、頭條、美團等等互聯網公司。這些公司的數據體量都非常大,數據量大肯定就需要大數據技術來解決存儲和計算的問題,相應的,就需要大數據人才。
互聯網大廠對於大數據人才的要求,對於不同工作崗位類型,其要求是不一樣的。對於大數據工程類型開發師而言,更偏向於你對於大數據組件的使用和原理理解,強調你的工程化的經驗、思考。對於這些組件,你要能夠靈活的進行使用,同時在使用的過程中,要有架構的思想在裡面,要做好復用和通用性。下面是某個大廠對於大數據偏工程類崗位的要求:
對於大數據數倉研發的崗位,這個崗位第一點要求你對數據倉庫的理論要有一定的認識以及理論實踐,同時需要你能夠有ETL(數據加工處理)的能力。對Hadoop的MapRece框架、HDFS存儲要有一定的了解。如果對於Hive、HBase有了解肯定更好。可以看到,大數據數倉研發的崗位,偏向於數據類處理技能和理論的要求。
我的建議,如果你個人內心對於大衫轎數據方向有一定興趣,但是擔心其就業前景不好的話,我認為你可以完全可以轉到大數據方向的崗位。目或世肆前國內大的互聯網公司都有大數據相關崗位的招聘,同樣,很多小的互聯網公司其實也在使用大數據技術,所以你完全沒必要擔心大數據的就業前景不好。
根據我今年的面試經驗,如果你在大數據方面的技術非常的扎實,同時你的Java語言方面和數據結構的基礎很好,你完全可以找到一個很好的大數據工作。互聯網行業講究的是你的技術和視野,希望你能夠好好准備,拿到自己想要的Offer。
我是Lake,專注大數據技術原理、人工智慧、資料庫技術、程序員經驗分享,如果我的問答對你有幫助的話,希望你能點贊
⑽ 大數據開發人員面試常會被問什麼問題
1、你自身的優點
這個問題不僅僅是在大數據面試當中常常被問,在各行各業的面試中都經常出現。所以面試者要盡可能說一些和工作相關的優點,比如「學習能力強」「能抗住壓力」等,再舉一個自己之前工作的例子進行證明,這會讓面試官覺得很真實。
2、為什麼要離開上家公司
其實面試官問這種問題的時候,就是在看你人品。很多人覺得說上家公司不好的話才是好的,其實不是的,離職見人品,如果你能在面試官面前說上家公司的不好,也能在下家公司說這家公司的不好。所以在面試官問及這個問題的時候,最好結合自身的發展來說。
3、未來幾年的規劃
回答這個問題的時候,不要說自己不知道、不清楚,會顯得你這個人沒有目標和方向。所以如果應聘者對這個問題不知道怎麼回答的時候,可以跟面試官交流一下現在大數據行業的職業目標以及准備做些什麼去實現這個目標,至少要讓面試官看到應聘者對選擇這個職業的熱情,甚至是對選擇這份工作的熱情。