1. 數據分析師常見的面試問題
關於數據分析師常見的面試問題集錦
1、你處理過的最大的數據量?你是如何處理他們的?處理的結果。
2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?
3、什麼是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?
4、什麼是:協同過濾、n-grams, map rece、餘弦距離?
5、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?
6、如何設計一個解決抄襲的方案?
7、如何檢驗一個個人支付賬戶都多個人使用?
8、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?
9、你認為哪個更好:是好的數據還是好模型?同時你是如何定義「好」?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?
10、什麼是概率合並(aka模糊融合)?使用sql處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?
11、你是如何處理缺少數據的?你推薦使用什麼樣的處理技術?
12、你最喜歡的編程語言是什麼?為什麼?
13、對於你喜歡的統計軟體告訴你喜歡的與不喜歡的3個理由。
14、sas, r, python, perl語言的區別是?
15、什麼是大數據的詛咒?
16、你參與過資料庫與數據模型的設計嗎?
17、你是否參與過儀表盤的設計及指標選擇?你對於商業智能和報表工具有什麼想法?
18、你喜歡td資料庫的什麼特徵?
19、如何你打算發100萬的營銷活動郵件。你怎麼去優化發送?你怎麼優化反應率?能把這二個優化份開嗎?
20、如果有幾個客戶查詢oracle資料庫的效率很低。為什麼?你做什麼可以提高速度10倍以上,同時可以更好處理大數量輸出?
21、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?
22、什麼是哈希表碰撞攻擊?怎麼避免?發生的頻率是多少?
23、如何判別maprece過程有好的負載均衡?什麼是負載均衡?
24、請舉例說明maprece是如何工作的?在什麼應用場景下工作的很好?雲的安全問題有哪些?
25、(在內存滿足的情況下)你認為是100個小的哈希表好還是一個大的哈希表,對於內在或者運行速度來說?對於資料庫分析的評價?
26、為什麼樸素貝葉斯差?你如何使用樸素貝葉斯來改進爬蟲檢驗演算法?
27、你處理過白名單嗎?主要的規則?(在欺詐或者爬行檢驗的情況下)
28、什麼是星型模型?什麼是查詢表?
29、你可以使用excel建立邏輯回歸模型嗎?如何可以,說明一下建立過程?
30、在sql, perl, c++, python等編程過程上,待為了提升速度優化過相關代碼或者演算法嗎?如何及提升多少?
31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決方案?取決於什麼內容?
32、定義:qa(質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?
33、普通線性回歸模型的缺陷是什麼?你知道的其它回歸模型嗎?
34、你認為葉數小於50的決策樹是否比大的好?為什麼?
35、保險精算是否是統計學的一個分支?如果不是,為何如何?
36、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。
37、為什麼說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?
38、你如何證明你帶來的演算法改進是真的有效的與不做任何改變相比?你對a/b測試熟嗎?
39、什麼是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對於在數據集中插入雜訊數據從而來檢驗模型的.敏感性的想法如何看?
40、對於一下邏輯回歸、決策樹、神經網路。在過去XX年中這些技術做了哪些大的改進?
41、除了主成分分析外你還使用其它數據降維技術嗎?你怎麼想逐步回歸?你熟悉的逐步回歸技術有哪些?什麼時候完整的數據要比降維的數據或者樣本好?
42、你如何建議一個非參數置信區間?
43、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率?
44、什麼是歸因分析?如何識別歸因與相關系數?舉例。
45、如何定義與衡量一個指標的預測能力?
46、如何為欺詐檢驗得分技術發現最好的規則集?你如何處理規則冗餘、規則發現和二者的本質問題?一個規則集的近似解決方案是否可行?如何尋找一個可行的近似方案?你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的?
47、如何創建一個關鍵字分類?
48、什麼是僵屍網路?如何進行檢測?
49、你有使用過api介面的經驗嗎?什麼樣的api?是谷歌還是亞馬遜還是軟體即時服務?
50、什麼時候自己編號代碼比使用數據科學者開發好的軟體包更好?
51、可視化使用什麼工具?在作圖方面,你如何評價tableau?r?sas?在一個圖中有效展現五個維度?
52、什麼是概念驗證?
53、你主要與什麼樣的客戶共事:內部、外部、銷售部門/財務部門/市場部門/it部門的人?有咨詢經驗嗎?與供應商打過交道,包括供應商選擇與測試。
54、你熟悉軟體生命周期嗎?及it項目的生命周期,從收入需求到項目維護?
55、什麼是cron任務?
56、你是一個獨身的編碼人員?還是一個開發人員?或者是一個設計人員?
57、是假陽性好還是假陰性好?
58、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎?分別給案例。
59、zillow』s演算法是如何工作的?
60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的fb帳戶?
61、你如何創建一個新的匿名數字帳戶?
62、你有沒有想過自己創業?是什麼樣的想法?
63、你認為帳號與密碼輸入的登錄框會消失嗎?它將會被什麼替代?
64、你用過時間序列模型嗎?時滯的相關性?相關圖?光譜分析?信號處理與過濾技術?在什麼樣的場景下?
65、哪位數據科學有你最佩服?從哪開始?
66、你是怎麼開始對數據科學感興趣的?
67、什麼是效率曲線?他們的缺陷是什麼,你如何克服這些缺陷?
68、什麼是推薦引擎?它是如何工作的?
69、什麼是精密測試?如何及什麼時候模擬可以幫忙我們不使用精密測試?
70、你認為怎麼才能成為一個好的數據科學家?
71、你認為數據科學家是一個藝術家還是科學家?
72、什麼是一個好的、快速的聚類演算法的的計算復雜度?什麼好的聚類演算法?你怎麼決定一個聚類的聚數?
73、給出一些在數據科學中「最佳實踐的案例」。
74、什麼讓一個圖形使人產生誤解、很難去讀懂或者解釋?一個有用的圖形的特徵?
75、你知道使用在統計或者計算科學中的「經驗法則」嗎?或者在商業分析中。
76、你覺得下一個20年最好的5個預測方法是?
77、你怎麼馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤,或者是用作支撐作者的論點,而不是僅僅在羅列某個事物的信息?例如,對於每月官方定期在媒體公開發布的失業統計數據,你有什麼感想?怎樣可以讓這些數據更加准確?
;2. 常見大數據公司面試問題有哪些
1、您對“大數據”一詞有什麼了解?
答: 大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。
2、告訴我們大數據和Hadoop之間的關系。
答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。
注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。
3、大數據分析如何有助於增加業務收入?
答:大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同,並增加收入。通過預測分析,大數據分析為企業提供了定製的建議。此外,大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。
3. 大數據分析面試問什麼
基本工具
包括規定動作和自選動作兩類。
1.1 規定動作
SQL查詢: ON、DISTINCT、GROUP BY、ORDER BY等等。從資料庫中提取數據是數據分析的第一步。
1.2 自選動作
根據簡歷來問,簡歷上寫什麼就問什麼,會問得比較深入。簡歷作為敲門磚,撰寫也是非常重要的,切不可寫的過於誇張和造假,奉勸各位不要作死,畢竟不作死都有可能會死。Python、Stata、R、SPSS、SAS、EViews都算比較常見的數據分析工具。
2.邏輯思維
主要分為兩方面,對業務邏輯的理解能力和行文的邏輯水平。
2.1業務邏輯
雖然一個業務看似流程簡單清晰,但產生數據的復雜程度往往超過大多數人的想像。對業務邏輯的考察主要通過相關項目經歷。
2.2行文邏輯
畢竟最終產出是一份份報告,可能是HTML郵件也能是PDF。
3.理論儲備
也分為規定動作和可選動作。
3.1 規定動作
主要是基礎的統計學理論,如方差、協方差、算數平均數、幾何平均數、中位數、眾數、分位值、雙峰數據、長尾數據、假設檢驗、期望迭代法則、貝葉斯原理等。
3.2 自選動作
根據簡歷來問,簡歷上寫什麼hr一定會問什麼。
4.對細節的敏感度
作為數據分析師,每天要關注大量數據指標。對細節的敏感度是非常必要的。這主要分為兩方面,對統計口徑的敏感度和對數據的敏感度。
4.1 統計口徑
統計口徑一致是確保數據可比性的基礎,這非常考驗數據分析師的敏感度和行業經驗。
4.2 數據
面試者對數據異常波動、離群值、平均數沒有代表意義等情況的迅速識別能力。比如已知然壽司套餐單價1,500,酒水單價300,平均客單價2,500,能不能馬上想到這可能是雙峰數據或者長尾數據,抑或既雙峰又長尾的數據?
5.學習能力
互聯網行業瞬息萬變,光數據的存儲就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三駕馬車等一大堆奇奇怪怪的東西。互聯網行業的從業者經常要面對新需求、新工具、新方法。能否迅速掌握新知識,解決新問題面試者必須證明給hr看。主要考察的方式是了解過往項目經歷,或者出作業題(比如Sci-Hub)。
6.排版和簡單UI設計
數據分析報告必須簡潔、清晰、重點突出。主要考察方式是出作業題讓面試者限時交一份slides(就是PPT啦)出來。
7.價值觀
主要看工作熱情、態度、道德水平等等,這方面的問題比較隨機。
4. 尚矽谷大數據面試都會問些什麼
其實不管是哪家公司面試,都是根據你的簡歷來對你進行提問,所以自己簡歷上面寫的知識點都要全部對答如流。
還有慎用精通這樣的字眼,工作五年以上的人,也不敢說自己對哪一方面能夠達到精通的地步。
尚矽谷大數據面試的一些基本問題總結如下:
1.講講你做的過的項目。 項目里有哪些 難點重點注意點呢?
2.講講多線程吧, 要是你,你怎麼實現一個線程池呢?
3.講一下Maprece或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什麼? 怎麼調優?
5.項目用什麼語言寫? Scala? Scala的特點? 和Java的區別?
6.理論基礎怎麼樣,比如數據結構,裡面的快速排序,或者,樹? 講一講你了解的樹的知識?
7.數學怎麼樣呢?
8.講一下資料庫,SQl ,左外連接, 原理,實現?
9.還了解過數據的什麼知識? 資料庫引擎?
10.Hadoop的機架怎麼配置的?
11.Hbase的設計有什麼心得?
12.Hbase的操作是用的什麼API還是什麼工具?
13.對調度怎麼理解.? 用什麼工具嗎?
14.用kettle 這種工具還是 自己寫程序? 你們公司是怎麼做的?
15.你們數據中心開發周期是多長?
16.你們hbase裡面是存一些什麼數據
5. 大數據技術Hadoop面試題
單項選擇題
1.下面哪個程序負責HDFS數據存儲。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2.HDfS中的block默認保存幾份?
a)3份
b)2份
c)1份
d)不確定
3.下列哪個程序通常與NameNode在一個節點啟動?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
4.Hadoop作者
a)MartinFowler
b)KentBeck
c)Dougcutting
5.HDFS默認BlockSize
a)32MB
b)64MB
c)128MB
6.下列哪項通常是集群的最主要瓶頸
a)CPU
b)網路
c)磁碟
d)內存
7.關於SecondaryNameNode哪項是正確的?
a)它是NameNode的熱備
b)它對內存沒有要求
c)它的目的是幫助NameNode合並編輯日誌,減少NameNode啟動時間
d)SecondaryNameNode應與NameNode部署到一個節點
多選題
8.下列哪項可以作為集群的管理工具
a)Puppet
b)Pdsh
c)ClouderaManager
d)d)Zookeeper
9.配置機架感知的下面哪項正確
a)如果一個機架出問題,不會影響數據讀寫
b)寫入數據的時候會寫到不同機架的DataNode中
c)MapRece會根據機架獲取離自己比較近的網路數據
10.Client端上傳文件的時候下列哪項正確
a)數據經過NameNode傳遞給DataNode
b)Client端將文件切分為Block,依次上傳
c)Client只上傳數據到一台DataNode,然後由NameNode負責Block復制工作
11.下列哪個是Hadoop運行的模式
a)單機版
b)偽分布式
c)分布式
12.Cloudera提供哪幾種安裝CDH的方法
a)Clouderamanager
b)Tarball
c)Yumd)Rpm
判斷題
13.Ganglia不僅可以進行監控,也可以進行告警。()
14.BlockSize是不可以修改的。()
15.Nagios不可以監控Hadoop集群,因為它不提供Hadoop支持。()
16.如果NameNode意外終止,SecondaryNameNode會接替它使集群繼續工作。() 1 2 3
6. 面試題-關於大數據量的分布式處理
面試題-關於大數據量的分布式處理
題目:生產系統每天會產生一個日誌文件F,數據量在5000W行的級別。文件F保存了兩列數據,一列是來源渠道,一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶,每訪問一次,記錄一條。
請問如何快速計算出各渠道上新增的用戶?
問題分析:首先本次面試的是有關於分布式數據處理以及數據分析的職位,所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢,實在沒向分布式處理方向思考。
方案一:
本題最直觀的一個處理方法就是,直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄,則忽略;若不存在訪問記錄,則保存為新增記錄。很明顯,假若歷史訪問用戶有2億條記錄,則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作,很容易就想到將歷史數據保存在資料庫的一張表中,並對來源渠道和用戶標識這兩個欄位建立索引,然後遍歷日誌文件F(5000W次)。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引,單次查詢的速度也非常快。但是需要5000W次的資料庫查詢,很明顯效率低下。
方案二:
既然多次單一查詢無法滿足要求,於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中,並和歷史數據做左外關聯。若能關聯成功,則表示此用戶已存在;若關聯失敗,則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少,單就5000W條訪問記錄導入資料庫表,都是一個不小的時間花費。
方案三:
很明顯,面試時方案二的回答並未達到面試官的預期,最初被遺憾的PASS掉。一家很有潛力,自己很看好的公司,並計劃做為自己未來發展方向的職位,就這樣丟下我,揚長而去了。
這幾天又看了下分布式相關的介紹,突然想到這道題。一下子醒悟過來,其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目,其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層,一種新的方式立馬在腦海中浮現出來。具體如下:
假如現在有N(N>=2)個存儲塊,並存在一個函數f(來源渠道,用戶標識),對於給定的一組(來源渠道,用戶標識),總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上,並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄,肯定會被分配至同一個存儲塊,所以比較時,只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶,然後將N個存儲塊上比較的結果匯總,即可得到最終結果。
假設歷史訪問用戶數據已通過函數f(來源渠道,用戶標識)被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下:
1、將F中的內容使用函數f(來源渠道,用戶標識),分發至文件F1、F2、…、FN內。(可開M(M>=2)個並行,且若N-M越大,同時向同一文件寫入數據的概率越小)
2、將文件F1、F2、…、FN內的訪問記錄去重。(可開N個並行分別處理對應的N個文件)。
3、將文件Fn(1=<n<=N)去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。(可開N個並行分別處理對應的N個文件且當N足夠大時,實際要處理數據的量級就會相當小)。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。(可並行)
5、為使歷史數據文件H1、H2、…、HN中的數據最全,將結果R1、R2、…、RN分別寫入對應的歷史文件中。(可並行)
本方案主要有以下優點:
1、數據的分發、處理、合並都可並行處理,明顯提高了處理效率。
2、由於每個存儲塊上的新增數據,只需要與它對應存儲塊上的歷史數據比較即可,大大減少了比較次數。(對於當日每一條記錄來說,都只需要與大約歷史的N分之一條數據去比較)
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點:
1、處理方案明顯變的復雜許多,不僅需要處理數據的分發,處理,還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點:
1、一個穩定(對於相同的一組來源渠道和用戶標識,必定會被分發至同一存儲塊)、快速(根據一條來源渠道和用戶標識數據,可以快速的計算出它將要被分發至的存儲塊)、均勻(當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊,最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一)的分發函數至關重要。
2、如何分發、並行處理及匯總數據。
7. 數據分析師面試常見問題有哪些
1、如何理解過擬合?
過擬合和欠擬合一樣,都是數據挖掘的基本概念。過擬合指的就是數據訓練得太好,在實際的測試環境中可能會產生錯誤,所以適當的剪枝對數據挖掘演算法來說也是很重要的。
欠擬合則是指機器學習得不充分,數據樣本太少,不足以讓機器形成自我認知。
2、為什麼說樸素貝葉斯是“樸素”的?
樸素貝葉斯是一種簡單但極為強大的預測建模演算法。之所以稱為樸素貝葉斯,是因為它假設每個輸入變數是獨立的。這是一個強硬的假設,實際情況並不一定,但是這項技術對於絕大部分的復雜問題仍然非常有效。
3、SVM 最重要的思想是什麼?
SVM 計算的過程就是幫我們找到超平面的過程,它有個核心的概念叫:分類間隔。SVM 的目標就是找出所有分類間隔中最大的那個值對應的超平面。在數學上,這是一個凸優化問題。同樣我們根據數據是否線性可分,把 SVM 分成硬間隔 SVM、軟間隔 SVM 和非線性 SVM。
4、K-Means 和 KNN 演算法的區別是什麼?
首先,這兩個演算法解決的是數據挖掘中的兩類問題。K-Means 是聚類演算法,KNN 是分類演算法。其次,這兩個演算法分別是兩種不同的學習方式。K-Means 是非監督學習,也就是不需要事先給出分類標簽,而 KNN 是有監督學習,需要我們給出訓練數據的分類標識。最後,K 值的含義不同。K-Means 中的 K 值代表 K 類。KNN 中的 K 值代表 K 個最接近的鄰居。