導航:首頁 > 網路數據 > 大數據開發常見面試題

大數據開發常見面試題

發布時間:2023-03-12 09:55:23

大數據分析面試問什麼

  1. 基本工具

包括規定動作和自選動作兩類。

1.1 規定動作

SQL查詢: ON、DISTINCT、GROUP BY、ORDER BY等等。從資料庫中提取數據是數據分析的第一步。

1.2 自選動作

根據簡歷來問,簡歷上寫什麼就問什麼,會問得比較深入。簡歷作為敲門磚,撰寫也是非常重要的,切不可寫的過於誇張和造假,奉勸各位不要作死,畢竟不作死都有可能會死。Python、Stata、R、SPSS、SAS、EViews都算比較常見的數據分析工具。

2.邏輯思維

主要分為兩方面,對業務邏輯的理解能力和行文的邏輯水平。

2.1業務邏輯

雖然一個業務看似流程簡單清晰,但產生數據的復雜程度往往超過大多數人的想像。對業務邏輯的考察主要通過相關項目經歷。

2.2行文邏輯

畢竟最終產出是一份份報告,可能是HTML郵件也能是PDF。

3.理論儲備

也分為規定動作和可選動作。

3.1 規定動作

主要是基礎的統計學理論,如方差、協方差、算數平均數、幾何平均數、中位數、眾數、分位值、雙峰數據、長尾數據、假設檢驗、期望迭代法則、貝葉斯原理等。

3.2 自選動作

根據簡歷來問,簡歷上寫什麼hr一定會問什麼。

4.對細節的敏感度

作為數據分析師,每天要關注大量數據指標。對細節的敏感度是非常必要的。這主要分為兩方面,對統計口徑的敏感度和對數據的敏感度。

4.1 統計口徑

統計口徑一致是確保數據可比性的基礎,這非常考驗數據分析師的敏感度和行業經驗。

4.2 數據

面試者對數據異常波動、離群值、平均數沒有代表意義等情況的迅速識別能力。比如已知然壽司套餐單價1,500,酒水單價300,平均客單價2,500,能不能馬上想到這可能是雙峰數據或者長尾數據,抑或既雙峰又長尾的數據?

5.學習能力

互聯網行業瞬息萬變,光數據的存儲就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三駕馬車等一大堆奇奇怪怪的東西。互聯網行業的從業者經常要面對新需求、新工具、新方法。能否迅速掌握新知識,解決新問題面試者必須證明給hr看。主要考察的方式是了解過往項目經歷,或者出作業題(比如Sci-Hub)。

6.排版和簡單UI設計

數據分析報告必須簡潔、清晰、重點突出。主要考察方式是出作業題讓面試者限時交一份slides(就是PPT啦)出來。

7.價值觀

主要看工作熱情、態度、道德水平等等,這方面的問題比較隨機。

Ⅱ 大數據開發人員面試常會被問什麼問題

1、你自身的優點
這個問題不僅僅是在大數據面試當中常常被問,在各行各業的面試中都經常出現。所以面試者要盡可能說一些和工作相關的優點,比如「學習能力強」「能抗住壓力」等,再舉一個自己之前工作的例子進行證明,這會讓面試官覺得很真實。
2、為什麼要離開上家公司
其實面試官問這種問題的時候,就是在看你人品。很多人覺得說上家公司不好的話才是好的,其實不是的,離職見人品,如果你能在面試官面前說上家公司的不好,也能在下家公司說這家公司的不好。所以在面試官問及這個問題的時候,最好結合自身的發展來說。
3、未來幾年的規劃
回答這個問題的時候,不要說自己不知道、不清楚,會顯得你這個人沒有目標和方向。所以如果應聘者對這個問題不知道怎麼回答的時候,可以跟面試官交流一下現在大數據行業的職業目標以及准備做些什麼去實現這個目標,至少要讓面試官看到應聘者對選擇這個職業的熱情,甚至是對選擇這份工作的熱情。

Ⅲ 「每日一道大數據面試題系列」spark如何調優

如果面試時被問到spark任務如何調優,我們該如何回答呢?

下面我們從四大方面回答這個問題,保證吊打面試官。

一、spark性能調優

1、分配更多的資源

比如增加執行器個數(num_executor)、增加執行器個數(executor_cores)、增加執行器內存(executor_memory)

2、調節並行度

spark.default.parallelism

3、重構RDD架構以及RDD持久化

盡量去復用RDD,差不多的RDD可以抽取成一個共同的RDD,公共RDD一定要實現持久化

4、廣播變數

SparkContext.broadcast方法創建一個對象,通過value方法訪問

5、使用kryo序列化

SparkConf中設置屬性:spark.serializer: org.apache.spark.serializer.kryoSerializer

6、使用fastutil優化數據格式(代替java中的Array、List、Set、Map)

7、調節數據本地化等待時長

調節參數: spark.locality.wait

二、JVM調優

降低cache操作的內存佔比 1.6版本之前使用的是靜態內存管理

spark中堆內存被劃分為兩塊:

一塊是專門來給RDD作cachepersist持久化的 StorageMemory,另一塊是給spark運算元函數運行使用的,存放函數中自己創建的對象。

1.6版本之後採用統一內存管理機制

storage和execution各佔50%,若己方不足對方空餘可佔用對方空間

可嘗試調節executor堆外內存

spark.yarn.executor.memoryOverhead = 2048m

調節連接等待時長

spark.core.connection.ack.wait.timeout = 300

三、shuffle數據傾斜調優

1、預聚合源數據,對hive源表提前進行聚合操作,在hive聚合之後,spark任務再去讀取

2、檢查傾斜的key是否是臟數據,可以提前過濾

3、提高shuffle操作rece的並行度

4、使用隨機key實現雙重聚合

5、將rece端 join轉換成map端 join

6、sample采樣傾斜key,單獨進行join後在union

7、使用隨機數以及擴容表進行join

四、運算元調優

1、使用mapPartition提升map類操作的性能

2、filter過後使用coalesce減少分區數量

3、使用foreachPartition優化寫數據性能

4、使用repartition解決sparkSql低並行度的性能問題

5、receByKey替換groupByKey實現map讀預聚合


Ⅳ 大數據開發工程師面試主要面試哪些內容

只要數據量級大(或者是數據復雜度,或者是其他方面的量級大)到普通的處理方法無法處理地實際上都可以算作是大數據開發,只不過一般大數據開發目前招聘的很多都是做數據處理的。有如下幾個方向:1)數據挖掘是大數據處理地一個方向,這里做數據挖掘要有一些統計學基礎才能做,目前數據挖掘的方向其實不是很明確,和人工智慧,機械學習也有一些關系,如果是做數據挖掘,基本的數據會由數據平台部或數據運維部門提供2)數據平台的開發(這里的平台開發在不同公司的內容又不一樣,小公司可能是根據公司業務做一套完整的數據分析系統,大公司這個職位可能是一些開源組件的二次開發)3)大數據運維方向:比如hadoop,spark集群的運維,涉及到ha等內容4)大數據分析方向:有的公司會將職責細化,招聘一些專業的分析人員,去寫hql或者是其它類sql來對數據進行分析最後,其實大數據平台相關工作的劃分並不清晰,行業里沒有統一標准,大公司小公司情況不同。關於技術方向更是用什麼的都有,比如有的公司用spark,有的用impala,還有的用clickhouse等,最近flink也逐漸進入大家的視野。所以在找工作時應該要考慮的是自己的強項是什麼,同時在選擇工作時要考慮到這個工作在做了三五年後,從這家公司出來還能不能找到工作。我個人的建議是如果你會java,那不要脫離java(scala)語言去做大數據開發,也不要專業只去做數據分析工作,大數據行業目前仍舊有一些泡沫(個人看法),很多組件仍舊是基於java的,一旦脫離java語言本身,那源碼閱讀,二次開發都會有問題,同時生產環境自動化去執行一些代碼也是需要語言支持的,或者最差的預估,如果大數據行業嚴重縮水(比如某些公司可以分析,可以挖掘的內容有限),可以隨時轉到java伺服器開發方向。

Ⅳ 大數據面試題及答案誰能分享一下

大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營,人才需求達到歷史最高水平。這對你意味著什麼?如果您想在任何大數據崗位上工作,它只能轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,資料庫管理員,大數據工程師,Hadoop大數據工程師等。在本文中,慧都網將介紹與大數據相關的前10大數據面試問題。

以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題,答案取決於您的經驗,我們將分享一些如何回答它們的提示。

10個大數據面試入門級問題

無論何時進行大數據采訪,采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

1.您對「大數據」一詞有何了解?

答:大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼?

答:大數據的五個V如下:

Ⅵ 大數據開發面試題有什麼

大數據開發的面試題有spark開發,hadoop應用等內容,具體開發崗,分析工程師有不同的內容,千鋒網有很多相關面試題。

Ⅶ 大數據面試要准備哪些

一、大數據面試要准備一些應試須知:
1、讓面試官記住你的名字。很多人在介紹自己名字的時候僅僅只有簡單的一句「我叫某某某」,直到你的自我介紹完畢,面試官也沒有記住你的名字,如果後續的自我介紹中沒有突出的表現,那麼這樣的自我介紹註定是失敗的。
2、告訴面試官和應聘職位相關的工作經歷。在自我介紹自己的工作經歷時,一定要注意哪些經歷是和應聘職位相關,對應聘有幫助,哪些是毫無意義的。例如應聘技術人員的職位,我們主要講從事本職工作的經歷,如果有從事其他行業的經歷,比如從事過銷售,組織,管理工作的,也可以略微提一下,往往會對應聘起到一定的幫助。
3、在面試官面前展現性格陽光的一面。性格也是面試官需要考察的一項,一般來說活潑、外向的性格始終會受到大家的親睞,所以我們在面試官面前一定要展示性格陽光的一面,即使內向,也不能表現出來。
4、簡單的介紹一下自己的未來規劃。未來規劃這一項是為了告訴面試官,我是一個有計劃、有目標、有理想的人,我參加面試是因為我對這份工作比較熱愛,而不是為了混口飯吃而應聘這項工作。很多老闆最怕找到以混日子為目的的員工。
5、注意揚長避短。揚長避短也就是說在面試時盡量選擇自己好的方面來說,只說自己的優點,避免談及自己的缺點。從人性的角度來講,人們總是對負面的新聞感興趣,因此在面試時,面試官會千方百計的發現你的缺點,你的弱項,如果我們主動將缺點暴露給對方,那麼產生的影響往往是負面的。
細節決定成敗,一個簡單的自我介紹雖然只有短短的幾分鍾,但是其內容卻包羅萬象,因此在面試時自我介紹的完美與否是舉足輕重的。
二、大數據面試要准備一些常見的面試題:
1、你會Java語言嗎?熟悉到什麼程度?
2、你最喜歡的編程語言是什麼?為什麼?
3、處理過的最大的數據量?你是如何處理他們的?處理的結果如何。
2、在處理大數據過程中,如何保證得到期望值?
3、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?
4、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?
6、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?
7、如何判別maprece過程有好的負載均衡?什麼是負載均衡?
8、Spark和Hive的區別,以及Spark和Hive的數據傾斜調優問題?
9、Hive和Hbase的區別?
10、MapRece的思想,以及MapRece調優問題?
11、你所了解的開源網站
12、有兩個集群,每個集群有3個節點,使用hive分析相同的數據,sql語句完全一樣,一個集群的分析結果比另外一個慢的多,給出造成這種現象的可能原因?
13、Hbase的優化?

14、集群的版本,以及集群的瓶頸問題?
15、CRM項目,怎麼跟Spark結合?
16、如何創建一個關鍵字分類?
17、海量日誌數據,提取出某日訪問網路次數最多的那個IP?
18、Hadoop和Spark處理數據時,出現內存溢出的處理方法?
19、有一個1G大小的一個文件,裡面每一是一個詞,詞的大小不超過16位元組,內存大小限制大小1M,返回頻率最高的50個詞。
20、你是如何處理缺少數據的?你是推薦使用什麼樣的處理技術,或者說你是用什麼樣的技術處理呢?

Ⅷ 大數據面試題以及答案整理(一)

一、Map端的shuffle

Map端會處理輸入數據並產生中間結果,這個中間結果會寫到本地磁碟,而不是HDFS。每個Map的輸出會先寫到內存緩沖區中,當寫入的數據達到設定的閾值時,系統將會啟動一個線程將緩沖區的數據寫到磁碟,這個過程叫做spill。

在spill寫入之前,會先進行二次排序,首先根據數據所屬的partition進行排序,然後每個partition中的數據再按key來排序。partition的目的是將記錄劃分到不同的Recer上去,以期望能夠達到負載均衡,以後的Recer就會根據partition來讀取自己對應的數據。接著運行combiner(如果設置了的話),combiner的本質也是一個Recer,其目的是對將要寫入到磁碟上的文件先進行一次處理,這樣,寫入到磁碟的數據量就會減少。最後將數據寫到本地磁碟產生spill文件(spill文件保存在{mapred.local.dir}指定的目錄中,Map任務結束後就會被刪除)。

最後,每個Map任務可能產生多個spill文件,在每個Map任務完成前,會通過多路歸並演算法將這些spill文件歸並成一個文件。至此,Map的shuffle過程就結束了。

二、Rece端的shuffle

Rece端的shuffle主要包括三個階段,、sort(merge)和rece。

首先要將Map端產生的輸出文件拷貝到Rece端,但每個Recer如何知道自己應該處理哪些數據呢?因為Map端進行partition的時候,實際上就相當於指定了每個Recer要處理的數據(partition就對應了Recer),所以Recer在拷貝數據的時候只需拷貝與自己對應的partition中的數據即可。每個Recer會處理一個或者多個partition,但需要先將自己對應的partition中的數據從每個Map的輸出結果中拷貝過來。

接下來就是sort階段,也稱為merge階段,因為這個階段的主要工作是執行了歸並排序。從Map端拷貝到Rece端的數據都是有序的,所以很適合歸並排序。最終在Rece端生成一個較大的文件作為Rece的輸入。

最後就是Rece過程了,在這個過程中產生了最終的輸出結果,並將其寫到HDFS上。

 讀:

1、跟namenode通信查詢元數據,找到文件塊所在的datanode伺服器

2、挑選一台datanode(就近原則,然後隨機)伺服器,請求建立socket流

3、datanode開始發送數據(從磁碟裡面讀取數據放入流,以packet為單位來做校驗)

4、客戶端以packet為單位接收,現在本地緩存,然後寫入目標文件

  寫:

1、與namenode通信請求上傳文件,namenode檢查目標文件是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第一個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器ABC

5、client請求3台dn中的一台A上傳數據(本質上是一個RPC調用,建立pipeline),A收到請求會繼續調用B,然後B調用C,將真個pipeline建立完成,逐級返回客戶端

6、client開始往A上傳第一個block(先從磁碟讀取數據放到一個本地內存緩存),以packet為單位,A收到一個packet就會傳給B,B傳給C;A每傳一個packet會放入一個應答隊列等待應答

7、當一個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器

Ⅸ 千鋒大數據開發面試題大全

大數據開發從千鋒網站上有

Ⅹ 大數據技術Hadoop面試題

單項選擇題

1.下面哪個程序負責HDFS數據存儲。

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

2.HDfS中的block默認保存幾份?

a)3份

b)2份

c)1份

d)不確定

3.下列哪個程序通常與NameNode在一個節點啟動?

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

4.Hadoop作者

a)MartinFowler

b)KentBeck

c)Dougcutting

5.HDFS默認BlockSize

a)32MB

b)64MB

c)128MB

6.下列哪項通常是集群的最主要瓶頸

a)CPU

b)網路

c)磁碟

d)內存

7.關於SecondaryNameNode哪項是正確的?

a)它是NameNode的熱備

b)它對內存沒有要求

c)它的目的是幫助NameNode合並編輯日誌,減少NameNode啟動時間

d)SecondaryNameNode應與NameNode部署到一個節點

多選題

8.下列哪項可以作為集群的管理工具

a)Puppet

b)Pdsh

c)ClouderaManager

d)d)Zookeeper

9.配置機架感知的下面哪項正確

a)如果一個機架出問題,不會影響數據讀寫

b)寫入數據的時候會寫到不同機架的DataNode中

c)MapRece會根據機架獲取離自己比較近的網路數據

10.Client端上傳文件的時候下列哪項正確

a)數據經過NameNode傳遞給DataNode

b)Client端將文件切分為Block,依次上傳

c)Client只上傳數據到一台DataNode,然後由NameNode負責Block復制工作

11.下列哪個是Hadoop運行的模式

a)單機版

b)偽分布式

c)分布式

12.Cloudera提供哪幾種安裝CDH的方法

a)Clouderamanager

b)Tarball

c)Yumd)Rpm

判斷題

13.Ganglia不僅可以進行監控,也可以進行告警。()

14.BlockSize是不可以修改的。()

15.Nagios不可以監控Hadoop集群,因為它不提供Hadoop支持。()

16.如果NameNode意外終止,SecondaryNameNode會接替它使集群繼續工作。() 1 2 3

閱讀全文

與大數據開發常見面試題相關的資料

熱點內容
國產電腦字體庫在哪個文件夾 瀏覽:322
AQQ網路語是什麼意思 瀏覽:715
蘋果版本虎虎直播下載 瀏覽:348
電腦日期和時間找不到文件 瀏覽:204
360手機自動同步文件夾 瀏覽:12
找不到c盤某某文件彈窗 瀏覽:256
蘋果手機文件存儲icloud 瀏覽:503
微信備份找不到文件 瀏覽:168
如何使用網路運動 瀏覽:757
文件夾選項找不到有幾種辦法 瀏覽:126
數據線放久了黏黏的怎麼除 瀏覽:179
更改文件夾名稱提示找不到指定文件 瀏覽:425
哪個app看電影最全免費 瀏覽:868
數控機床手動編程怎麼用 瀏覽:276
如何關閉文件共享埠 瀏覽:921
衛生健康文件有哪些 瀏覽:568
單個應用怎麼關閉數據 瀏覽:653
韓版6sa1688網路支持 瀏覽:716
java中如何新建數組 瀏覽:302
電腦打開文件的軟體 瀏覽:369

友情鏈接