❶ shopee大數據sre面經
我對shopee是有一些情懷在裡面的,早在17年的時候我就面試過它們的大數據崗位(base新加坡),年少輕狂的我當時沒有針對性的好好復習,且項目積累的也不夠,導致第二輪就被pass了。現在隨著年齡的增長,我已經斷了出國的念想,最終選擇了深圳shopee作為此次跑路的目標公司。
本次跳槽,我制定了一個詳細的計劃,從復習內容到時間把控兩個方面結合起來。大體情況如下:
時間安排上:
具體到一天的時間,因為是在職情況,所以系統的時間只能到晚上,一般就強迫自己從21:00復習到23:30左右。
20210301找人內推簡歷到shopee-->20210308一面-->20210312二面-->20210317三面-->20210324 offer溝通,然後第二天收到offer
一面:mentor面試,以基礎為主
1、kafka的rebalance過程
2、zkfc的fence機制
3、jvm內存模型以及gc演算法,垃圾收集器
4、clickhouse表引擎
5、spark的stage劃分
6、spark straming與flink的區別
7、通訊網路上的tcp三次握手,四次揮手
8、常見數據結構,hashmap
9、演算法題,leetcode179
10、Linux的文件系統設計,以及常用命令
二面:leader面試,以項目為主
1、hdfs讀寫流程,yarn調度器區別以及標簽功能,hive傾斜問題以及小文件優化,spark資源優化
2、集群監控報警如何做的,不同組件的報警策略是什麼,報警信息是否有合並
3、數據治理怎麼做的,元數據管理,數據生命周期管理以及數據質量
4、數據遷移項目擔任的角色,講下遷移背景以及採用的工具,具體實施方式是怎樣,過程中遇到的問題有哪些
三面:boss面試,以工作經歷為主
1、自己對哪個組件非常熟(hdfs),數據規模怎樣,做了哪些優化,namenode內部結構是怎樣,它的qps是多少,hdfs關注的監控指標有哪些
2、工作中處理過的事故是什麼,介紹下場景,當時如何解決的,問題是如何定位的,有沒有什麼更好的解決方式徹底解決
3、對大數據sre的理解
4、然後boss簡單介紹了下shopee的大數據團隊架構,個人的成長路線等。
四面:hr面,工作經歷及談薪
簡單自我介紹,各個階段離職的原因,期望薪資,目前offer情況等。
最後就是背調了,這個階段一般要一周左右的時間,最後就是入職了。
總的來說,shopee的面試偏基礎與自己的實際工作經歷,考察范圍比較廣,需要掌握基本的網路知識,熟練編碼能力,精通專業技能。最後祝願所有跑路的同學們都拿到自己理想的offer!
(shopee最近很缺人哦,有想法的同學可查看: https://mp.weixin.qq.com/s?__biz=MzkzMzIzNDU0MA==&mid=2247483747&idx=1&sn=&chksm=52ea14&token=90945026&lang=zh_CN#rd )
❷ 大數據工程師面試攻略有哪些
1、面試過程是一次高效的交流
首先,我覺得面試官有責任保證面試過程是一次高效的交流。你要獲取到你需要的信息,對面試者做全方位的考量;面試者也要獲取到他需要的信息,面試官(若面試成功很大可能是自己的上級)的水平,公司技術要求水平,自己是否適合這家公司,公司是否需要自己。
面試是一個雙向選擇的過程,面試官在選人,面試者在選公司。而面試者了解這家公司最直接的途徑就是通過面試官。
2、面試官
說說面試官,我先說幾個面試官常會有的問題。問題問得太跳躍,想到什麼問什麼。抓住一個面試官自己很熟的知識點或者方嚮往死里問 ,完全不會根據面試者的回答情況做調整(我是來面試的,不是來看你炫技的)。
3、技術問題
只問技術,不問業務,技術問題問得太表面,當然我也見過不錯的面試官,問題問得很有水平。那有水平的面試官會給人什麼樣的感覺?答得很舒服,不管結果怎麼樣,總之能展現出自己應有的水平面試過程是有收獲的,沒有白來,知道了自己的欠缺,如果面試者是個到處搶著要的高手,那你有水平的提問會給這個面試者留下深刻印象,畢竟大家都是喜歡和厲害的人當同事的。
4、提問
說說提問,思路想法,表達能力,技術功底,熱情。這幾個點我是比較看重的。很多問題都是圍繞著這幾個點展開的,大家看下有沒有借鑒意義。
❸ 常見大數據公司面試問題有哪些
1、您對“大數據”一詞有什麼了解?
答: 大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。
2、告訴我們大數據和Hadoop之間的關系。
答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。
注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。
3、大數據分析如何有助於增加業務收入?
答:大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同,並增加收入。通過預測分析,大數據分析為企業提供了定製的建議。此外,大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。
❹ 面試大數據工程師,這些技巧你知道嗎
考演算法,就像很多人說的,知道了一個演算法又能怎麼樣,可能工作中一輩子都用不上,就算能用上,很多的演算法都有庫和包實現了,拿來用就是了。確實是這樣,所以考演算法,並不是為了考,為了會,而是為了在探討演算法的過程中,考察和驗證一個人是否聰明,是否基本功扎實,是否能夠順暢溝通,是否能夠快速反應和學習。在討論和交流的過程中,發現閃光點。能不能想出來,或是說出來,並不是考演算法的要點。
再看寫代碼,則是更多的為了考察和驗證出活的能力。在很多的情況下,用什麼語言寫是沒有要求的。這樣,一是可以考察基本功,沒有基本功,是不可能能快速出活的。二是可以考察平時的訓練積累和經驗,包括工作方式,編程風格,思考方法,等等。三是接受任務和完成任務的主動性,是不是願意接受任何團隊需要完成的任務。四是完成任務的速度和質量,也就是出活的速度和質量。這種寫代碼的測試,會是之後工作情景的一個小小的縮影。
從寫代碼的過程和最後寫出的代碼,可以深入的考察一個人的基本素質,工作方式,和出活的條件,和出活的效率和質量。
至於主動性,或是責任心,有多方面和多種方式可以考察和驗證,比如,聊過去的項目,在項目中的角色,完成的任務,完成的質量。在聊演算法,寫代碼的過程中,也能夠窺見一些,因為,一個不主動負責的人,是很難在完成具體任務時佯裝出來的。
關於面試大數據工程師,這些技巧你知道嗎,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
以上是小編為大家分享的關於面試大數據工程師,這些技巧你知道嗎?的相關內容,更多信息可以關注環球青藤分享更多干貨
❺ 大數據面試經驗:餓了么數據分析師
又有一種數據分析師,崗位職責要求你掌握常用的機器學習演算法,面試首先推導一個決策樹或者邏輯回歸。入職後也是各類代碼,和分析打交道的情況不多。
❻ 大數據面試題以及答案整理(一)
一、Map端的shuffle
Map端會處理輸入數據並產生中間結果,這個中間結果會寫到本地磁碟,而不是HDFS。每個Map的輸出會先寫到內存緩沖區中,當寫入的數據達到設定的閾值時,系統將會啟動一個線程將緩沖區的數據寫到磁碟,這個過程叫做spill。
在spill寫入之前,會先進行二次排序,首先根據數據所屬的partition進行排序,然後每個partition中的數據再按key來排序。partition的目的是將記錄劃分到不同的Recer上去,以期望能夠達到負載均衡,以後的Recer就會根據partition來讀取自己對應的數據。接著運行combiner(如果設置了的話),combiner的本質也是一個Recer,其目的是對將要寫入到磁碟上的文件先進行一次處理,這樣,寫入到磁碟的數據量就會減少。最後將數據寫到本地磁碟產生spill文件(spill文件保存在{mapred.local.dir}指定的目錄中,Map任務結束後就會被刪除)。
最後,每個Map任務可能產生多個spill文件,在每個Map任務完成前,會通過多路歸並演算法將這些spill文件歸並成一個文件。至此,Map的shuffle過程就結束了。
二、Rece端的shuffle
Rece端的shuffle主要包括三個階段,、sort(merge)和rece。
首先要將Map端產生的輸出文件拷貝到Rece端,但每個Recer如何知道自己應該處理哪些數據呢?因為Map端進行partition的時候,實際上就相當於指定了每個Recer要處理的數據(partition就對應了Recer),所以Recer在拷貝數據的時候只需拷貝與自己對應的partition中的數據即可。每個Recer會處理一個或者多個partition,但需要先將自己對應的partition中的數據從每個Map的輸出結果中拷貝過來。
接下來就是sort階段,也稱為merge階段,因為這個階段的主要工作是執行了歸並排序。從Map端拷貝到Rece端的數據都是有序的,所以很適合歸並排序。最終在Rece端生成一個較大的文件作為Rece的輸入。
最後就是Rece過程了,在這個過程中產生了最終的輸出結果,並將其寫到HDFS上。
讀:
1、跟namenode通信查詢元數據,找到文件塊所在的datanode伺服器
2、挑選一台datanode(就近原則,然後隨機)伺服器,請求建立socket流
3、datanode開始發送數據(從磁碟裡面讀取數據放入流,以packet為單位來做校驗)
4、客戶端以packet為單位接收,現在本地緩存,然後寫入目標文件
寫:
1、與namenode通信請求上傳文件,namenode檢查目標文件是否已存在,父目錄是否存在
2、namenode返回是否可以上傳
3、client請求第一個 block該傳輸到哪些datanode伺服器上
4、namenode返回3個datanode伺服器ABC
5、client請求3台dn中的一台A上傳數據(本質上是一個RPC調用,建立pipeline),A收到請求會繼續調用B,然後B調用C,將真個pipeline建立完成,逐級返回客戶端
6、client開始往A上傳第一個block(先從磁碟讀取數據放到一個本地內存緩存),以packet為單位,A收到一個packet就會傳給B,B傳給C;A每傳一個packet會放入一個應答隊列等待應答
7、當一個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器
❼ 面試大數據工作要做好哪些准備
1、了解要面試的公司
對要面試的公司進行深入的研究了解,包括公司的企業文化,企業的發展狀況,從而在面試時輕松面試,成功的概率自然會提高很多。
2、在面試中要介紹自己對於團隊精神的認知
面試過程之中有一些招聘方會問到團隊精神的問題,但有一些則不會問到這方面的問題,但不會問到這樣問題的招聘人員並不表示他對於這樣的問題並不關注,要知道在大數據開發技術方面,很多地方都是需要團隊協作的。因此,在團隊協作方面有著極高的要求,所以我們在招聘過程中一定要講解到自己對於團隊精神理念的認知,以及在團隊協作表現方面的能力如何,這會讓我們求職成功的概率更高。
3、在大數據面試的時候一定要將自己的項目經驗展示出來
我們應聘的工作是大數據方面的工作,因此想要擁有更高的面試成功機會,那麼就必須要有相應的項目,在大數據面試技巧這個問題上,我們需要關注的核心要點就是自己的項目經驗,如果你本身只有大數據的理論知識,而沒有項目實戰經驗,這種狀態之下能夠成功應聘上的概率自然降低了很多,為了規避這方面的問題產生,我們一定要做些大數據的項目,積攢項目經驗,這樣面試的時候也有話說。
❽ 大數據面試題及答案誰能分享一下
大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營,人才需求達到歷史最高水平。這對你意味著什麼?如果您想在任何大數據崗位上工作,它只能轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,資料庫管理員,大數據工程師,Hadoop大數據工程師等。在本文中,慧都網將介紹與大數據相關的前10大數據面試問題。
以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題,答案取決於您的經驗,我們將分享一些如何回答它們的提示。
無論何時進行大數據采訪,采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。
1.您對「大數據」一詞有何了解?
答:大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。
2.大數據的五個V是什麼?
答:大數據的五個V如下:
Volume -Volume表示體積大,即以高速率增長的數據量,即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型,即各種數據格式,如文本,音頻,視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性,因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值,企業可以創造收入。
YARN的兩個主要組成部分:
ResourceManager-該組件接收處理請求,並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務
7.為什麼Hadoop可用於大數據分析?
答:由於數據分析已成為業務的關鍵參數之一,因此,企業正在處理大量結構化,非結構化和半結構化數據。在Hadoop主要支持其功能的情況下,分析非結構化數據非常困難
存儲
處理
數據採集
此外,Hadoop是開源的,可在商用硬體上運行。因此,它是企業的成本效益解決方案。
8.什麼是fsck?
答:fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如,如果文件有任何丟失的塊,則通過此命令通知HDFS。
9. NAS(網路附加存儲)和HDFS之間的主要區別是什麼?
答:NAS(網路附加存儲)和HDFS之間的主要區別 -
HDFS在一組計算機上運行,而NAS在單個計算機上運行。因此,數據冗餘是HDFS中的常見問題。相反,復制協議在NAS的情況下是不同的。因此,數據冗餘的可能性要小得多。
在HDFS的情況下,數據作為數據塊存儲在本地驅動器中。在NAS的情況下,它存儲在專用硬體中。
10.格式化NameNode的命令是什麼?
答:$ hdfs namenode -format。
歡迎咨詢慧都在線客服,我們將幫您轉接大數據專家團隊,並發送相關資料給您!
以上就是大數據面試題及答案,希望我的回答對您有幫助!
❾ 數據分析師常見的面試問題
關於數據分析師常見的面試問題集錦
1、你處理過的最大的數據量?你是如何處理他們的?處理的結果。
2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?
3、什麼是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?
4、什麼是:協同過濾、n-grams, map rece、餘弦距離?
5、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?
6、如何設計一個解決抄襲的方案?
7、如何檢驗一個個人支付賬戶都多個人使用?
8、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?
9、你認為哪個更好:是好的數據還是好模型?同時你是如何定義「好」?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?
10、什麼是概率合並(aka模糊融合)?使用sql處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?
11、你是如何處理缺少數據的?你推薦使用什麼樣的處理技術?
12、你最喜歡的編程語言是什麼?為什麼?
13、對於你喜歡的統計軟體告訴你喜歡的與不喜歡的3個理由。
14、sas, r, python, perl語言的區別是?
15、什麼是大數據的詛咒?
16、你參與過資料庫與數據模型的設計嗎?
17、你是否參與過儀表盤的設計及指標選擇?你對於商業智能和報表工具有什麼想法?
18、你喜歡td資料庫的什麼特徵?
19、如何你打算發100萬的營銷活動郵件。你怎麼去優化發送?你怎麼優化反應率?能把這二個優化份開嗎?
20、如果有幾個客戶查詢oracle資料庫的效率很低。為什麼?你做什麼可以提高速度10倍以上,同時可以更好處理大數量輸出?
21、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?
22、什麼是哈希表碰撞攻擊?怎麼避免?發生的頻率是多少?
23、如何判別maprece過程有好的負載均衡?什麼是負載均衡?
24、請舉例說明maprece是如何工作的?在什麼應用場景下工作的很好?雲的安全問題有哪些?
25、(在內存滿足的情況下)你認為是100個小的哈希表好還是一個大的哈希表,對於內在或者運行速度來說?對於資料庫分析的評價?
26、為什麼樸素貝葉斯差?你如何使用樸素貝葉斯來改進爬蟲檢驗演算法?
27、你處理過白名單嗎?主要的規則?(在欺詐或者爬行檢驗的情況下)
28、什麼是星型模型?什麼是查詢表?
29、你可以使用excel建立邏輯回歸模型嗎?如何可以,說明一下建立過程?
30、在sql, perl, c++, python等編程過程上,待為了提升速度優化過相關代碼或者演算法嗎?如何及提升多少?
31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決方案?取決於什麼內容?
32、定義:qa(質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?
33、普通線性回歸模型的缺陷是什麼?你知道的其它回歸模型嗎?
34、你認為葉數小於50的決策樹是否比大的好?為什麼?
35、保險精算是否是統計學的一個分支?如果不是,為何如何?
36、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。
37、為什麼說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?
38、你如何證明你帶來的演算法改進是真的有效的與不做任何改變相比?你對a/b測試熟嗎?
39、什麼是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對於在數據集中插入雜訊數據從而來檢驗模型的.敏感性的想法如何看?
40、對於一下邏輯回歸、決策樹、神經網路。在過去XX年中這些技術做了哪些大的改進?
41、除了主成分分析外你還使用其它數據降維技術嗎?你怎麼想逐步回歸?你熟悉的逐步回歸技術有哪些?什麼時候完整的數據要比降維的數據或者樣本好?
42、你如何建議一個非參數置信區間?
43、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率?
44、什麼是歸因分析?如何識別歸因與相關系數?舉例。
45、如何定義與衡量一個指標的預測能力?
46、如何為欺詐檢驗得分技術發現最好的規則集?你如何處理規則冗餘、規則發現和二者的本質問題?一個規則集的近似解決方案是否可行?如何尋找一個可行的近似方案?你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的?
47、如何創建一個關鍵字分類?
48、什麼是僵屍網路?如何進行檢測?
49、你有使用過api介面的經驗嗎?什麼樣的api?是谷歌還是亞馬遜還是軟體即時服務?
50、什麼時候自己編號代碼比使用數據科學者開發好的軟體包更好?
51、可視化使用什麼工具?在作圖方面,你如何評價tableau?r?sas?在一個圖中有效展現五個維度?
52、什麼是概念驗證?
53、你主要與什麼樣的客戶共事:內部、外部、銷售部門/財務部門/市場部門/it部門的人?有咨詢經驗嗎?與供應商打過交道,包括供應商選擇與測試。
54、你熟悉軟體生命周期嗎?及it項目的生命周期,從收入需求到項目維護?
55、什麼是cron任務?
56、你是一個獨身的編碼人員?還是一個開發人員?或者是一個設計人員?
57、是假陽性好還是假陰性好?
58、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎?分別給案例。
59、zillow』s演算法是如何工作的?
60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的fb帳戶?
61、你如何創建一個新的匿名數字帳戶?
62、你有沒有想過自己創業?是什麼樣的想法?
63、你認為帳號與密碼輸入的登錄框會消失嗎?它將會被什麼替代?
64、你用過時間序列模型嗎?時滯的相關性?相關圖?光譜分析?信號處理與過濾技術?在什麼樣的場景下?
65、哪位數據科學有你最佩服?從哪開始?
66、你是怎麼開始對數據科學感興趣的?
67、什麼是效率曲線?他們的缺陷是什麼,你如何克服這些缺陷?
68、什麼是推薦引擎?它是如何工作的?
69、什麼是精密測試?如何及什麼時候模擬可以幫忙我們不使用精密測試?
70、你認為怎麼才能成為一個好的數據科學家?
71、你認為數據科學家是一個藝術家還是科學家?
72、什麼是一個好的、快速的聚類演算法的的計算復雜度?什麼好的聚類演算法?你怎麼決定一個聚類的聚數?
73、給出一些在數據科學中「最佳實踐的案例」。
74、什麼讓一個圖形使人產生誤解、很難去讀懂或者解釋?一個有用的圖形的特徵?
75、你知道使用在統計或者計算科學中的「經驗法則」嗎?或者在商業分析中。
76、你覺得下一個20年最好的5個預測方法是?
77、你怎麼馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤,或者是用作支撐作者的論點,而不是僅僅在羅列某個事物的信息?例如,對於每月官方定期在媒體公開發布的失業統計數據,你有什麼感想?怎樣可以讓這些數據更加准確?
;❿ 我想去學習大數據,聽說要經過面試,面試的內容有哪些
1.海量日誌數據,提取出某日訪問網路次數最多的那個IP。
2.搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。
3.有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16位元組,內存限制大小是1M。返回頻數最高的100個詞。
4、騰訊面試題:給40億個不重復的unsigned int的整數,沒排過序的,然後再給一個數,如何快速判斷這個數是否在那40億個數當中?