大數據十大面試問題_尚矽谷大數據面試都會問些什麼

A. 數據分析師常見的面試問題

關於數據分析師常見的面試問題集錦

1、你處理過的最大的數據量?你是如何處理他們的?處理的結果。

2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?

3、什麼是：提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?

4、什麼是：協同過濾、n-grams, map rece、餘弦距離?

5、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?

6、如何設計一個解決抄襲的方案?

7、如何檢驗一個個人支付賬戶都多個人使用?

8、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?

9、你認為哪個更好：是好的數據還是好模型?同時你是如何定義「好」?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?

10、什麼是概率合並(aka模糊融合)?使用sql處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?

11、你是如何處理缺少數據的?你推薦使用什麼樣的處理技術?

12、你最喜歡的編程語言是什麼?為什麼?

13、對於你喜歡的統計軟體告訴你喜歡的與不喜歡的3個理由。

14、sas, r, python, perl語言的區別是?

15、什麼是大數據的詛咒?

16、你參與過資料庫與數據模型的設計嗎?

17、你是否參與過儀表盤的設計及指標選擇?你對於商業智能和報表工具有什麼想法?

18、你喜歡td資料庫的什麼特徵?

19、如何你打算發100萬的營銷活動郵件。你怎麼去優化發送?你怎麼優化反應率?能把這二個優化份開嗎?

20、如果有幾個客戶查詢oracle資料庫的效率很低。為什麼?你做什麼可以提高速度10倍以上，同時可以更好處理大數量輸出?

21、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?

22、什麼是哈希表碰撞攻擊?怎麼避免?發生的頻率是多少?

23、如何判別maprece過程有好的負載均衡?什麼是負載均衡?

24、請舉例說明maprece是如何工作的?在什麼應用場景下工作的很好?雲的安全問題有哪些?

25、(在內存滿足的情況下)你認為是100個小的哈希表好還是一個大的哈希表，對於內在或者運行速度來說?對於資料庫分析的評價?

26、為什麼樸素貝葉斯差?你如何使用樸素貝葉斯來改進爬蟲檢驗演算法?

27、你處理過白名單嗎?主要的規則?(在欺詐或者爬行檢驗的情況下)

28、什麼是星型模型?什麼是查詢表?

29、你可以使用excel建立邏輯回歸模型嗎?如何可以，說明一下建立過程?

30、在sql, perl, c++, python等編程過程上，待為了提升速度優化過相關代碼或者演算法嗎?如何及提升多少?

31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決方案?取決於什麼內容?

32、定義：qa(質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?

33、普通線性回歸模型的缺陷是什麼?你知道的其它回歸模型嗎?

34、你認為葉數小於50的決策樹是否比大的好?為什麼?

35、保險精算是否是統計學的一個分支?如果不是，為何如何?

36、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。

37、為什麼說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?

38、你如何證明你帶來的演算法改進是真的有效的與不做任何改變相比?你對a/b測試熟嗎?

39、什麼是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對於在數據集中插入雜訊數據從而來檢驗模型的.敏感性的想法如何看?

40、對於一下邏輯回歸、決策樹、神經網路。在過去XX年中這些技術做了哪些大的改進?

41、除了主成分分析外你還使用其它數據降維技術嗎?你怎麼想逐步回歸?你熟悉的逐步回歸技術有哪些?什麼時候完整的數據要比降維的數據或者樣本好?

42、你如何建議一個非參數置信區間?

43、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率?

44、什麼是歸因分析?如何識別歸因與相關系數?舉例。

45、如何定義與衡量一個指標的預測能力?

46、如何為欺詐檢驗得分技術發現最好的規則集?你如何處理規則冗餘、規則發現和二者的本質問題?一個規則集的近似解決方案是否可行?如何尋找一個可行的近似方案?你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的?

47、如何創建一個關鍵字分類?

48、什麼是僵屍網路?如何進行檢測?

49、你有使用過api介面的經驗嗎?什麼樣的api?是谷歌還是亞馬遜還是軟體即時服務?

50、什麼時候自己編號代碼比使用數據科學者開發好的軟體包更好?

51、可視化使用什麼工具?在作圖方面，你如何評價tableau?r?sas?在一個圖中有效展現五個維度?

52、什麼是概念驗證?

53、你主要與什麼樣的客戶共事：內部、外部、銷售部門/財務部門/市場部門/it部門的人?有咨詢經驗嗎?與供應商打過交道，包括供應商選擇與測試。

54、你熟悉軟體生命周期嗎?及it項目的生命周期，從收入需求到項目維護?

55、什麼是cron任務?

56、你是一個獨身的編碼人員?還是一個開發人員?或者是一個設計人員?

57、是假陽性好還是假陰性好?

58、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎?分別給案例。

59、zillow』s演算法是如何工作的?

60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的fb帳戶?

61、你如何創建一個新的匿名數字帳戶?

62、你有沒有想過自己創業?是什麼樣的想法?

63、你認為帳號與密碼輸入的登錄框會消失嗎?它將會被什麼替代?

64、你用過時間序列模型嗎?時滯的相關性?相關圖?光譜分析?信號處理與過濾技術?在什麼樣的場景下?

65、哪位數據科學有你最佩服?從哪開始?

66、你是怎麼開始對數據科學感興趣的?

67、什麼是效率曲線?他們的缺陷是什麼，你如何克服這些缺陷?

68、什麼是推薦引擎?它是如何工作的?

69、什麼是精密測試?如何及什麼時候模擬可以幫忙我們不使用精密測試?

70、你認為怎麼才能成為一個好的數據科學家?

71、你認為數據科學家是一個藝術家還是科學家?

72、什麼是一個好的、快速的聚類演算法的的計算復雜度?什麼好的聚類演算法?你怎麼決定一個聚類的聚數?

73、給出一些在數據科學中「最佳實踐的案例」。

74、什麼讓一個圖形使人產生誤解、很難去讀懂或者解釋?一個有用的圖形的特徵?

75、你知道使用在統計或者計算科學中的「經驗法則」嗎?或者在商業分析中。

76、你覺得下一個20年最好的5個預測方法是?

77、你怎麼馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤，或者是用作支撐作者的論點，而不是僅僅在羅列某個事物的信息?例如，對於每月官方定期在媒體公開發布的失業統計數據，你有什麼感想?怎樣可以讓這些數據更加准確?

;

B. 大數據面試題及答案誰能分享一下

大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營，人才需求達到歷史最高水平。這對你意味著什麼？如果您想在任何大數據崗位上工作，它只能轉化為更好的機會。您可以選擇成為數據分析師，數據科學家，資料庫管理員，大數據工程師，Hadoop大數據工程師等。在本文中，慧都網將介紹與大數據相關的前10大數據面試問題。

以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題，答案取決於您的經驗，我們將分享一些如何回答它們的提示。

10個大數據面試入門級問題

無論何時進行大數據采訪，采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富，都需要基礎知識。因此，讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

1.您對「大數據」一詞有何了解？

答：大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據，這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務，並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼？

答：大數據的五個V如下：

Volume -Volume表示體積大，即以高速率增長的數據量，即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型，即各種數據格式，如文本，音頻，視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性，因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值，企業可以創造收入。

YARN的兩個主要組成部分：

ResourceManager-該組件接收處理請求，並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務

7.為什麼Hadoop可用於大數據分析？

答：由於數據分析已成為業務的關鍵參數之一，因此，企業正在處理大量結構化，非結構化和半結構化數據。在Hadoop主要支持其功能的情況下，分析非結構化數據非常困難

存儲
處理
數據採集

此外，Hadoop是開源的，可在商用硬體上運行。因此，它是企業的成本效益解決方案。

8.什麼是fsck？

答：fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如，如果文件有任何丟失的塊，則通過此命令通知HDFS。

9. NAS（網路附加存儲）和HDFS之間的主要區別是什麼？

答：NAS（網路附加存儲）和HDFS之間的主要區別 -

HDFS在一組計算機上運行，而NAS在單個計算機上運行。因此，數據冗餘是HDFS中的常見問題。相反，復制協議在NAS的情況下是不同的。因此，數據冗餘的可能性要小得多。
在HDFS的情況下，數據作為數據塊存儲在本地驅動器中。在NAS的情況下，它存儲在專用硬體中。

10.格式化NameNode的命令是什麼？

答：$ hdfs namenode -format。

歡迎咨詢慧都在線客服，我們將幫您轉接大數據專家團隊，並發送相關資料給您！

以上就是大數據面試題及答案，希望我的回答對您有幫助！

C. 面試問你們大數據項目的數據結構是怎樣的

一些最常見的編程面來試問自題:

1．數組編碼面試問題

數組是最基本的數據結構，它將元素存儲在一個連續的內存位置。這也是面試官們熱衷的話題之一。以下是一些熱門的基於數組的編程面試問題:

1.如何在一個1到100的整數數組中找到丟失的數字?(方法)

2.如何在給定的整數數組中找到重復的數字? (方法)

3.如何在未排序整數數組中找到最大值和最小值? (方法)

4.如何找到數組所有和等於一個給定數的數對? (方法)

5.如果一個數組包含多重復制，那麼如何找到重復的數字? (方法)

6.在Java中如何從給定數組中刪除多重復制? (方法)

7.如何使用快速排序演算法對整數數組進行排序? (方法)

8.如何從數組中刪除多重復制? (方法)

9.如何在Java中對數組進行反向操作? (方法)

10.如何在不使用任何庫的情況下從數組中刪除多重復制? (方法)

這些問題不僅可以幫助你提高解決問題的能力，還可以提高你對數組數據結構的認識。

D. 面試數據分析師的常見問題

面試數據分析師的常見問題。數據分析師指的是不同行業中，專門從事行業數據搜集、整理、分析，並依據數據做出行業研究、評估和預測的專業人員。那麼在應聘數據分析師這一職位的求職者會面臨哪些面試問題呢？

1、告訴我二個分析或者計算機科學相關項目？你是如何對其結果進行衡量的？
2、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫？
3、什麼是：提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則？
4、什麼是：協同過濾、n-grams, map rece、餘弦距離？
5、點擊流數據應該是實時處理？為什麼？哪部分應該實時處理？
6、如何設計一個解決抄襲的方案？
7、如何檢驗一個個人支付賬戶都多個人使用？
8、什麼是概率合並(AKA模糊融合)？使用SQL處理還是其它語言方便？對於處理半結構化的數據你會選擇使用哪種語言？
9、你認為哪個更好：是好的數據還是好模型？同時你是如何定義「好」？存在所有情況下通用的模型嗎？有你沒有知道一些模型的定義並不是那麼好？
10、你最喜歡的編程語言是什麼？為什麼？
11、你是如何處理缺少數據的？你推薦使用什麼樣的處理技術？
12、什麼是大數據的詛咒？
13、對於你喜歡的統計軟體告訴你喜歡的與不喜歡的3個理由。
14、SAS, R, Python, Perl語言的區別是？
15、你喜歡TD資料庫的什麼特徵？
16、你參與過資料庫與數據模型的設計嗎？
17、你是否參與過儀表盤的設計及指標選擇？你對於商業智能和報表工具有什麼想法？
18、請舉例說明maprece是如何工作的？在什麼應用場景下工作的很好？雲的安全問題有哪些？
19、如何你打算發100萬的營銷活動郵件。你怎麼去優化發送？你怎麼優化反應率？能把這二個優化份開嗎？
20、如果有幾個客戶查詢ORACLE資料庫的效率很低。為什麼？你做什麼可以提高速度10倍以上，同時可以更好處理大數量輸出？
21、如何把非結構化的數據轉換成結構化的數據？這是否真的有必要做這樣的轉換？把數據存成平面文本文件是否比存成關系資料庫更好？
22、什麼是哈希表碰撞攻擊？怎麼避免？發生的頻率是多少？
23、如何判別maprece過程有好的負載均衡？什麼是負載均衡？
24、你處理過白名單嗎？主要的規則？(在欺詐或者爬行檢驗的情況下)
25、(在內存滿足的情況下)你認為是100個小的哈希表好還是一個大的哈希表，對於內在或者運行速度來說？對於資料庫分析的評價？
26、為什麼樸素貝葉斯差？你如何使用樸素貝葉斯來改進爬蟲檢驗演算法？
27、普通線性回歸模型的缺陷是什麼？你知道的其它回歸模型嗎？
28、什麼是星型模型？什麼是查詢表？
29、你可以使用excel建立邏輯回歸模型嗎？如何可以，說明一下建立過程？
30、在SQL, Perl, C++, Python等編程過程上，待為了提升速度優化過相關代碼或者演算法嗎？如何及提升多少？
31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決方案？取決於什麼內容？
32、定義：QA(質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例？
33、什麼是敏感性分析？擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好？你如何使用交叉驗證？你對於在數據集中插入雜訊數據從而來檢驗模型的敏感性的想法如何看？
34、你認為葉數小於50的決策樹是否比大的好？為什麼？
35、保險精算是否是統計學的一個分支？如果不是，為何如何？
36、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。
37、你如何建議一個非參數置信區間？
38、你如何證明你帶來的演算法改進是真的有效的與不做任何改變相比？你對A/B測試熟嗎？
39、為什麼說均方誤差不是一個衡量模型的好指標？你建議用哪個指標替代？
40、對於一下邏輯回歸、決策樹、神經網路。在過去15年中這些技術做了哪些大的改進？
41、除了主成分分析外你還使用其它數據降維技術嗎？你怎麼想逐步回歸？你熟悉的逐步回歸技術有哪些？什麼時候完整的數據要比降維的數據或者樣本好？
42、如何創建一個關鍵字分類？
43、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率？
44、什麼是歸因分析？如何識別歸因與相關系數？舉例。
45、如何定義與衡量一個指標的預測能力？
46、如何為欺詐檢驗得分技術發現最好的規則集？你如何處理規則冗餘、規則發現和二者的本質問題？一個規則集的近似解決方案是否可行？如何尋找一個可行的近似方案？你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的？
47、什麼是概念驗證？
48、什麼是僵屍網路？如何進行檢測？
49、你有使用過API介面的經驗嗎？什麼樣的API？是谷歌還是亞馬遜還是軟體即時服務？
50、什麼時候自己編號代碼比使用數據科學者開發好的軟體包更好？
51、可視化使用什麼工具？在作圖方面，你如何評價Tableau？R？SAS？在一個圖中有效展現五個維度？
52、是假陽性好還是假陰性好？
53、你主要與什麼樣的客戶共事：內部、外部、銷售部門/財務部門/市場部門/IT部門的人？有咨詢經驗嗎？與供應商打過交道，包括供應商選擇與測試。
54、你熟悉軟體生命周期嗎？及IT項目的生命周期，從收入需求到項目維護？
55、什麼是cron任務？
56、你是一個獨身的編碼人員？還是一個開發人員？或者是一個設計人員？
57、什麼讓一個圖形使人產生誤解、很難去讀懂或者解釋？一個有用的圖形的特徵？
58、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎？分別給案例。
59、Zillow』s演算法是如何工作的？
60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的FB帳戶？
61、你如何創建一個新的匿名數字帳戶？
62、你有沒有想過自己創業？是什麼樣的想法？
63、你認為帳號與密碼輸入的登錄框會消失嗎？它將會被什麼替代？
64、你用過時間序列模型嗎？時滯的相關性？相關圖？光譜分析？信號處理與過濾技術？在什麼樣的場景下？
65、哪位數據科學有你最佩服？從哪開始？
66、你是怎麼開始對數據科學感興趣的？
67、你覺得下一個20年最好的5個預測方法是？
68、什麼是推薦引擎？它是如何工作的？
69、什麼是精密測試？如何及什麼時候模擬可以幫忙我們不使用精密測試？
70、你認為怎麼才能成為一個好的數據科學家？
71、你認為數據科學家是一個藝術家還是科學家？
72、你怎麼馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤，或者是用作支撐作者的論點，而不是僅僅在羅列某個事物的信息？例如，對於每月官方定期在媒體公開發布的失業統計數據，你有什麼感想？怎樣可以讓這些數據更加准確？
73、給出一些在數據科學中「最佳實踐的案例」。
74、什麼是效率曲線？他們的缺陷是什麼，你如何克服這些缺陷？
75、你處理過的最大的數據量？你是如何處理他們的？處理的結果。
76、什麼是一個好的、快速的聚類演算法的的計算復雜度？什麼好的聚類演算法？你怎麼決定一個聚類的聚數？
77、你知道使用在統計或者計算科學中的「經驗法則」嗎？或者在商業分析中。
上述的這些問題在面試數據分析師的求職者中非常容易遇到的，有些的涉及到專業性的問題，因此在面試之前一定要做好充足的准備！

E. 尚矽谷大數據面試都會問些什麼

其實不管是哪家公司面試，都是根據你的簡歷來對你進行提問，所以自己簡歷上面寫的知識點都要全部對答如流。

還有慎用精通這樣的字眼，工作五年以上的人，也不敢說自己對哪一方面能夠達到精通的地步。

尚矽谷大數據面試的一些基本問題總結如下：

1.講講你做的過的項目。項目里有哪些難點重點注意點呢？
2.講講多線程吧，要是你，你怎麼實現一個線程池呢？
3.講一下Maprece或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什麼？怎麼調優？
5.項目用什麼語言寫？ Scala？ Scala的特點？和Java的區別？
6.理論基礎怎麼樣，比如數據結構，裡面的快速排序，或者，樹？講一講你了解的樹的知識？
7.數學怎麼樣呢？
8.講一下資料庫，SQl ，左外連接，原理，實現？
9.還了解過數據的什麼知識？資料庫引擎？
10.Hadoop的機架怎麼配置的？
11.Hbase的設計有什麼心得？
12.Hbase的操作是用的什麼API還是什麼工具？
13.對調度怎麼理解.? 用什麼工具嗎？
14.用kettle 這種工具還是自己寫程序？你們公司是怎麼做的？
15.你們數據中心開發周期是多長？
16.你們hbase裡面是存一些什麼數據

F. 常見大數據公司面試問題有哪些

1、您對“大數據”一詞有什麼了解?

答：大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據，這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務，並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。

2、告訴我們大數據和Hadoop之間的關系。

答：大數據和Hadoop幾乎是同義詞。隨著大數據的興起，專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。

注意：在大數據采訪中通常會問這個問題。可以進一步去回答這個問題，並試圖解釋的Hadoop的主要組成部分。

3、大數據分析如何有助於增加業務收入?

答：大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同，並增加收入。通過預測分析，大數據分析為企業提供了定製的建議。此外，大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入，因此公司正在使用大數據分析。通過實施大數據分析，公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪，LinkedIn，Facebook，Twitter，美國銀行等。

G. 數據分析師面試常見問題有哪些

1、如何理解過擬合?

過擬合和欠擬合一樣，都是數據挖掘的基本概念。過擬合指的就是數據訓練得太好，在實際的測試環境中可能會產生錯誤，所以適當的剪枝對數據挖掘演算法來說也是很重要的。

欠擬合則是指機器學習得不充分，數據樣本太少，不足以讓機器形成自我認知。

2、為什麼說樸素貝葉斯是“樸素”的?

樸素貝葉斯是一種簡單但極為強大的預測建模演算法。之所以稱為樸素貝葉斯，是因為它假設每個輸入變數是獨立的。這是一個強硬的假設，實際情況並不一定，但是這項技術對於絕大部分的復雜問題仍然非常有效。

3、SVM 最重要的思想是什麼?

SVM 計算的過程就是幫我們找到超平面的過程，它有個核心的概念叫：分類間隔。SVM 的目標就是找出所有分類間隔中最大的那個值對應的超平面。在數學上，這是一個凸優化問題。同樣我們根據數據是否線性可分，把 SVM 分成硬間隔 SVM、軟間隔 SVM 和非線性 SVM。

4、K-Means 和 KNN 演算法的區別是什麼?

首先，這兩個演算法解決的是數據挖掘中的兩類問題。K-Means 是聚類演算法，KNN 是分類演算法。其次，這兩個演算法分別是兩種不同的學習方式。K-Means 是非監督學習，也就是不需要事先給出分類標簽，而 KNN 是有監督學習，需要我們給出訓練數據的分類標識。最後，K 值的含義不同。K-Means 中的 K 值代表 K 類。KNN 中的 K 值代表 K 個最接近的鄰居。

導航:首頁 > 網路數據 > 大數據十大面試問題

大數據十大面試問題

10個大數據面試入門級問題

與大數據十大面試問題相關的資料

友情鏈接