hadoop大數據面試題_大數據開發面試題有什麼

⑴ 大數據面試題及答案誰能分享一下

大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營，人才需求達到歷史最高水平。這對你意味著什麼？如果您想在任何大數據崗位上工作，它只能轉化為更好的機會。您可以選擇成為數據分析師，數據科學家，資料庫管理員，大數據工程師，Hadoop大數據工程師等。在本文中，慧都網將介紹與大數據相關的前10大數據面試問題。

以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題，答案取決於您的經驗，我們將分享一些如何回答它們的提示。

10個大數據面試入門級問題

無論何時進行大數據采訪，采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富，都需要基礎知識。因此，讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

1.您對「大數據」一詞有何了解？

答：大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據，這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務，並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼？

答：大數據的五個V如下：

Volume -Volume表示體積大，即以高速率增長的數據量，即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型，即各種數據格式，如文本，音頻，視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性，因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值，企業可以創造收入。

YARN的兩個主要組成部分：

ResourceManager-該組件接收處理請求，並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務

7.為什麼Hadoop可用於大數據分析？

答：由於數據分析已成為業務的關鍵參數之一，因此，企業正在處理大量結構化，非結構化和半結構化數據。在Hadoop主要支持其功能的情況下，分析非結構化數據非常困難

存儲
處理
數據採集

此外，Hadoop是開源的，可在商用硬體上運行。因此，它是企業的成本效益解決方案。

8.什麼是fsck？

答：fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如，如果文件有任何丟失的塊，則通過此命令通知HDFS。

9. NAS（網路附加存儲）和HDFS之間的主要區別是什麼？

答：NAS（網路附加存儲）和HDFS之間的主要區別 -

HDFS在一組計算機上運行，而NAS在單個計算機上運行。因此，數據冗餘是HDFS中的常見問題。相反，復制協議在NAS的情況下是不同的。因此，數據冗餘的可能性要小得多。
在HDFS的情況下，數據作為數據塊存儲在本地驅動器中。在NAS的情況下，它存儲在專用硬體中。

10.格式化NameNode的命令是什麼？

答：$ hdfs namenode -format。

歡迎咨詢慧都在線客服，我們將幫您轉接大數據專家團隊，並發送相關資料給您！

以上就是大數據面試題及答案，希望我的回答對您有幫助！

⑵ 2021年大數據工程師面試內容包括哪些

【導語】近年來，大數據發展如火如荼，很多人都選擇學習大數據專業或者轉行大數據，大數據里又包含很多就業崗位，所以在進行崗位選擇的時候，還是需要大家合理選擇，為了幫助大家更好的進入大數據行業執業，下面就把2021年大數據工程師面試內容給大家進行一下具體介紹。

1、自我介紹

一般上來就是自我介紹，談下工作經歷和項目經驗，面試官會根據你的項目經驗對你進行技術面試。在自我介紹時，一定要抓住核心說，不要太啰嗦，盡量放大自己的價值，讓面試官感受到你對工作的熱情，以及以後對公司貢獻的能力。

2、數倉開發知識技能

(1)Java是必問的，不過問的不深，把Javase部分吃透，足以應付Java部分的面試。

(2)Hadoop生態，Yarn、Zookeeper、HDFS這些底層原理要懂，面試經常被問。

(3)Maprece的shuffle過程這個也是面試被常問的。

(4)Hbase和HIve，搞大數據這些不懂真的說不過去。

(5)Mysql、Oracle和Postgres資料庫操作要回，Sql要會寫。

(6)linux操作系統，這個簡單得命令必須要懂，會寫shell腳本更好了。

(7)Kettle或Sqoop這種數據處理工具至少要會一個。8，數據倉庫建模、數據模型的問題。

3、技術方面知識技能

(1)SparkSql和SparkStreaming，底層原理、內核、提交任務的過程等等，盡量深入內幕，這個經常會跟MapRece作比較的。當然也要了解Storm和Flink，Flink這個建議要學會，以後用處會越來越廣。

(2)Redis、Kafka、ElasticSearch這些都得懂原理，深入了解，會使用，會操作，會調優。

(3)impala和kylin這些盡量也要了解會用

(4)Python這個要是有能力，有精力，建議也要往深處學習，我目前正在自學中。

(5)集群的問題，包括一些簡單的運維知識。

(6)大數據數據傾斜的問題，包括Spark JVM內存調優問題等等。

關於2021年大數據工程師面試內容，就給大家介紹到這里了，希望對大家能有所幫助，當然進入大數據行業，還需要大家在平時不斷進行技能提升，這樣才能更好的擁有一席之地。

⑶ hadoop面試題之HDFS

1、簡單介紹下hadoop吧？

廣義上hadoop是指與hadoop相關的大數據生態圈。包含hive、spark、hbase等。

狹義上hadoop指的是手悉apache的開源框架。有三個核心組件：

----hdfs：分布式文件存儲系統

----yarn：分布式資源管理調度平台

----mr：分布式計算引擎

2、介紹下hdfs?

全稱為Hadoop Distributed File System。有三個核心組件：

namenode：有三個作用，第一是負責保存集群的元數據信息，第二是負責維護整個集群節點的正常運行。

第三是負責處理客戶端的請求。

datanode：負責實際保存數據。實際執行數據塊的讀寫操作。

secondarynamenode：輔助namenode進行元數據的管理。不是namenode的備份。

3、namenode的工作機制？

namenode在內存中保存著整個內存系統的名稱空間和文件數據塊的地址映射。整個hdfs可存儲的文件數受限於namenode的內存大小。所以hdfs不適合大量小文件的存儲。

---namenode有三種元數據存儲方式來管理元數據：

》內存元數據：內存中保存了完整的元數據

》保存在磁碟上的元數據鏡像文件（fsimage）：該文件時hdfs存在磁碟中梁纖的元數據檢查點，裡面保存的是最後一次檢查點之前的hdfs文件系統中所有目錄和文件的序列化信息。

》數據操作日誌文件（edits）：用於銜接內存meta data和持久化元數據鏡像fsimage之間的操作日誌文件。保存了自最後一次檢查點之後所有針對hdfs文件系統的操作。如對文件的增刪改查。

4、如何查看元數據信息？

因為edits和fsimage文件是經過序列化的，所以不能直接查看。hadoop2.0以上提供了查看兩種文件的工具。

----命令：hdfs oiv 可以將fsimage文件轉換成其他格式，如xml和文本文件。-i 表示輸入fsimage文件。-o 輸出文件路徑，-p 指定輸出文件

hdfs oev可以查看edits文件。同理需要指定相關參數。

詳情查看： https://www.imooc.com/article/79705

4、datanode的工作機制？

1）以數據塊的形式存儲hdfs文件

2）datanode響應客戶端的讀寫請求

3）周期性的向namenode匯報心跳信息、數據塊信息、緩存數據塊信息

5、secondary namenode工作機制？

當發生checkpoint機制時會觸發second namenode進行工作。checkpoint：

新的edists文件不會立即和fsimage文件合並，是在edits文件大小超過（默認）64m，或者時間超過（默認）1小時，會觸發checkpoint操作。當checkpoint時，namenode會新建一個edits.new的文件,此時second namenode將文件fsimage文件和edits文件（http get）到本地，然後載入到內存中進行合並，完成的文件名稱為fsimage.ckpt。最後 second namenode將該文件（http post）到namenode，然後edits.new和fsimage.ckpt文件轉換為fsimage和edits。

6、hdfs的文件副本機制？

所有的文件都是以塊的形式保存到hdfs中。塊的大小默認為128m。在hdfs-site文件中進行指定。

動態副本創建策略：默認副本數是3，可以在上傳文件時，顯式設定replication。也可以通過指令修改文件的副本數 hadoop fs -setrep -R 1

7、畢渣乎為實現高可用，hdfs採用了哪些策略？

副本機制、機架感知、心跳機制、安全模式、校驗和、回收站、元數據保護、快照機制（具體介紹導航- https://www.jianshu.com/writer#/notebooks/44567747/notes/66453316 ）

8、hdfs的存儲過程？

①client向hdfs發起寫請求，通過RPC與namenode建立通訊。namenode檢查文件是否存在等信息，返回是否可以存儲。

②client將文件切割為一個個block塊，client申請存儲第一塊block。namenode返回可以存儲這個block塊的datanode的地址，假設為ABC。

③A到B到C逐級構建pipeline。client向A上傳第一個packet，默認為64k。A收到一個packet後會將packet傳給B，再傳給C。pipeline反方向返回ack信息。最終由第一個節點A將pipelineack發送給client

④一個block完成之後，再進行下一個block的存儲過程。

9、hdfs的讀過程？

10、hdfs的垃圾桶機制？

hdfs的垃圾桶機制默認是關閉的，需要手動開啟。hdfs刪除的文件不會立刻就刪除，而是在設定的時間後進行刪除。

11、hdfs的擴容和縮容

【

12、

⑷ 大數據開發面試題有什麼

大數據開發的面試題有spark開發，hadoop應用等內容，具體開發崗，分析工程師有不同的內容，千鋒網有很多相關面試題。

⑸ 尚矽谷大數據面試都會問些什麼

其實不管是哪家公司面試，都是根據你的簡歷來對你進行提問，所以自己簡歷上面寫的知識點都要全部對答如流。

還有慎用精通這樣的字眼，工作五年以上的人，也不敢說自己對哪一方面能夠達到精通的地步。

尚矽谷大數據面試的一些基本問題總結如下：

1.講講你做的過的項目。項目里有哪些難點重點注意點呢？
2.講講多線程吧，要是你，你怎麼實現一個線程池呢？
3.講一下Maprece或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什麼？怎麼調優？
5.項目用什麼語言寫？ Scala？ Scala的特點？和Java的區別？
6.理論基礎怎麼樣，比如數據結構，裡面的快速排序，或者，樹？講一講你了解的樹的知識？
7.數學怎麼樣呢？
8.講一下資料庫，SQl ，左外連接，原理，實現？
9.還了解過數據的什麼知識？資料庫引擎？
10.Hadoop的機架怎麼配置的？
11.Hbase的設計有什麼心得？
12.Hbase的操作是用的什麼API還是什麼工具？
13.對調度怎麼理解.? 用什麼工具嗎？
14.用kettle 這種工具還是自己寫程序？你們公司是怎麼做的？
15.你們數據中心開發周期是多長？
16.你們hbase裡面是存一些什麼數據

⑹ 大數據分析面試問什麼

基本工具

包括規定動作和自選動作兩類。

1.1 規定動作

SQL查詢： ON、DISTINCT、GROUP BY、ORDER BY等等。從資料庫中提取數據是數據分析的第一步。

1.2 自選動作

根據簡歷來問，簡歷上寫什麼就問什麼，會問得比較深入。簡歷作為敲門磚，撰寫也是非常重要的，切不可寫的過於誇張和造假，奉勸各位不要作死，畢竟不作死都有可能會死。Python、Stata、R、SPSS、SAS、EViews都算比較常見的數據分析工具。

2.邏輯思維

主要分為兩方面，對業務邏輯的理解能力和行文的邏輯水平。

2.1業務邏輯

雖然一個業務看似流程簡單清晰，但產生數據的復雜程度往往超過大多數人的想像。對業務邏輯的考察主要通過相關項目經歷。

2.2行文邏輯

畢竟最終產出是一份份報告，可能是HTML郵件也能是PDF。

3.理論儲備

也分為規定動作和可選動作。

3.1 規定動作

主要是基礎的統計學理論，如方差、協方差、算數平均數、幾何平均數、中位數、眾數、分位值、雙峰數據、長尾數據、假設檢驗、期望迭代法則、貝葉斯原理等。

3.2 自選動作

根據簡歷來問，簡歷上寫什麼hr一定會問什麼。

4.對細節的敏感度

作為數據分析師，每天要關注大量數據指標。對細節的敏感度是非常必要的。這主要分為兩方面，對統計口徑的敏感度和對數據的敏感度。

4.1 統計口徑

統計口徑一致是確保數據可比性的基礎，這非常考驗數據分析師的敏感度和行業經驗。

4.2 數據

面試者對數據異常波動、離群值、平均數沒有代表意義等情況的迅速識別能力。比如已知然壽司套餐單價1,500，酒水單價300，平均客單價2,500，能不能馬上想到這可能是雙峰數據或者長尾數據，抑或既雙峰又長尾的數據？

5.學習能力

互聯網行業瞬息萬變，光數據的存儲就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三駕馬車等一大堆奇奇怪怪的東西。互聯網行業的從業者經常要面對新需求、新工具、新方法。能否迅速掌握新知識，解決新問題面試者必須證明給hr看。主要考察的方式是了解過往項目經歷，或者出作業題(比如Sci-Hub)。

6.排版和簡單UI設計

數據分析報告必須簡潔、清晰、重點突出。主要考察方式是出作業題讓面試者限時交一份slides(就是PPT啦)出來。

7.價值觀

主要看工作熱情、態度、道德水平等等，這方面的問題比較隨機。

⑺ 大數據面試要准備哪些

一、大數據面試要准備一些應試須知：
1、讓面試官記住你的名字。很多人在介紹自己名字的時候僅僅只有簡單的一句「我叫某某某」,直到你的自我介紹完畢,面試官也沒有記住你的名字,如果後續的自我介紹中沒有突出的表現,那麼這樣的自我介紹註定是失敗的。
2、告訴面試官和應聘職位相關的工作經歷。在自我介紹自己的工作經歷時,一定要注意哪些經歷是和應聘職位相關,對應聘有幫助,哪些是毫無意義的。例如應聘技術人員的職位,我們主要講從事本職工作的經歷,如果有從事其他行業的經歷,比如從事過銷售,組織,管理工作的,也可以略微提一下,往往會對應聘起到一定的幫助。
3、在面試官面前展現性格陽光的一面。性格也是面試官需要考察的一項,一般來說活潑、外向的性格始終會受到大家的親睞,所以我們在面試官面前一定要展示性格陽光的一面,即使內向,也不能表現出來。
4、簡單的介紹一下自己的未來規劃。未來規劃這一項是為了告訴面試官,我是一個有計劃、有目標、有理想的人,我參加面試是因為我對這份工作比較熱愛,而不是為了混口飯吃而應聘這項工作。很多老闆最怕找到以混日子為目的的員工。
5、注意揚長避短。揚長避短也就是說在面試時盡量選擇自己好的方面來說,只說自己的優點,避免談及自己的缺點。從人性的角度來講,人們總是對負面的新聞感興趣,因此在面試時,面試官會千方百計的發現你的缺點,你的弱項,如果我們主動將缺點暴露給對方,那麼產生的影響往往是負面的。
細節決定成敗,一個簡單的自我介紹雖然只有短短的幾分鍾,但是其內容卻包羅萬象,因此在面試時自我介紹的完美與否是舉足輕重的。
二、大數據面試要准備一些常見的面試題：
1、你會Java語言嗎？熟悉到什麼程度？
2、你最喜歡的編程語言是什麼？為什麼？
3、處理過的最大的數據量？你是如何處理他們的？處理的結果如何。
2、在處理大數據過程中，如何保證得到期望值？
3、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫？
4、點擊流數據應該是實時處理？為什麼？哪部分應該實時處理？
6、如何把非結構化的數據轉換成結構化的數據？這是否真的有必要做這樣的轉換？把數據存成平面文本文件是否比存成關系資料庫更好？
7、如何判別maprece過程有好的負載均衡？什麼是負載均衡？
8、Spark和Hive的區別，以及Spark和Hive的數據傾斜調優問題？
9、Hive和Hbase的區別？
10、MapRece的思想，以及MapRece調優問題？
11、你所了解的開源網站？
12、有兩個集群，每個集群有3個節點，使用hive分析相同的數據，sql語句完全一樣，一個集群的分析結果比另外一個慢的多，給出造成這種現象的可能原因？
13、Hbase的優化？

14、集群的版本，以及集群的瓶頸問題？
15、CRM項目，怎麼跟Spark結合？
16、如何創建一個關鍵字分類？
17、海量日誌數據，提取出某日訪問網路次數最多的那個IP？
18、Hadoop和Spark處理數據時，出現內存溢出的處理方法？
19、有一個1G大小的一個文件，裡面每一是一個詞，詞的大小不超過16位元組，內存大小限制大小1M，返回頻率最高的50個詞。
20、你是如何處理缺少數據的？你是推薦使用什麼樣的處理技術，或者說你是用什麼樣的技術處理呢？

導航:首頁 > 網路數據 > hadoop大數據面試題

hadoop大數據面試題

10個大數據面試入門級問題

與hadoop大數據面試題相關的資料

友情鏈接